Вы правы в том, что размер выборки влияет на мощность (т.е. ошибка 1 - тип II), но не на ошибку I типа. Распространенным заблуждением является то, что p-значение как таковое (правильно интерпретированное) менее надежно или допустимо при небольшом размере выборки - очень интересная статья Friston 2012 об этом забавно [1].
При этом проблемы с недостаточно развитыми исследованиями реальны, и я бы сказал, что цитата в значительной степени правильная, лишь немного неточная в своей формулировке.
Основная проблема с недостаточными исследованиями состоит в том, что, хотя уровень ложных срабатываний (ошибка типа I) в тестах гипотез фиксирован, уровень истинных положительных результатов (мощность) снижается. Следовательно, положительный (= значимый) результат с меньшей вероятностью будет истинно положительным в недостаточно изученном исследовании. Эта идея выражается в частоте ложных открытий [2], см. Также [3]. Кажется, это относится к цитате.
Еще одна проблема, часто упоминаемая в связи с недостаточными исследованиями, заключается в том, что они приводят к завышенным величинам эффекта. Это связано с тем, что: а) при более низкой мощности ваши оценки истинных эффектов станут более переменными (стохастическими) относительно их истинного значения, и б) только самый сильный из этих эффектов пройдет фильтр значимости при низкой мощности. Следует добавить, что это проблема отчетности, которую можно легко решить, обсуждая и сообщая обо всех, а не только о существенных последствиях.
Наконец, важная практическая проблема с недостаточными исследованиями состоит в том, что низкая мощность увеличивает статистические проблемы (например, смещение оценок), а также искушение поиграться с переменными и подобной тактикой p-хакерства. Использование этих «степеней свободы исследователя» наиболее эффективно при низкой мощности, и ЭТО может, в конце концов, увеличить ошибку I типа, см., Например, [4].
По всем этим причинам я бы поэтому скептически отнесся к недостаточному исследованию.
[1] Фристон К. (2012) Десять иронических правил для нестатистических рецензентов. NeuroImage, 61, 1300-1310.
[2] https://en.wikipedia.org/wiki/False_discovery_rate
[3] Кнопка KS; Иоаннидис, JPA; Mokrysz, C .; Носек Б.А. Flint, J .; Robinson, ESJ & Munafo, MR (2013) Отказ питания: почему небольшой размер выборки подрывает надежность нейробиологии. Туземный Rev. Neurosci., 14, 365-376
[4] Симмонс, JP; Нельсон, Л.Д. и Симонсон, У. (2011) Ложноположительная психология: нераскрытая гибкость в сборе и анализе данных позволяет представить что-либо как существенное. Psychol Sci., 22, 1359-1366.