Я узнал, что небольшой размер выборки может привести к недостаточной мощности и ошибке 2 типа. Тем не менее, у меня есть ощущение, что небольшие образцы просто могут быть ненадежными и могут привести к любому результату случайно. Это правда?
Я узнал, что небольшой размер выборки может привести к недостаточной мощности и ошибке 2 типа. Тем не менее, у меня есть ощущение, что небольшие образцы просто могут быть ненадежными и могут привести к любому результату случайно. Это правда?
Ответы:
Как правило, малый размер выборки не увеличивает частоту ошибок типа I по той простой причине, что тест предназначен для контроля частоты типа I. (Существуют незначительные технические исключения, связанные с дискретными результатами, которые могут привести к тому, что номинальная скорость типа I не будет достигнута точно, особенно при небольших размерах выборки.)
Здесь есть важный принцип : если ваш тест имеет приемлемый размер (= номинальная скорость типа I) и приемлемую мощность для эффекта, который вы ищете, то даже если размер выборки небольшой, это нормально.
Опасность заключается в том, что если мы иначе мало знаем о ситуации - может быть, это все данные, которые у нас есть, - тогда мы можем быть обеспокоены ошибками типа III: то есть ошибочной спецификацией модели. Их может быть трудно проверить с помощью небольших наборов образцов.
В качестве практического примера взаимодействия идей я поделюсь историей. Давным-давно меня попросили порекомендовать размер образца, чтобы подтвердить экологическую очистку. Это было на этапе предварительной очистки, прежде чем мы получили какие-либо данные. Мой план предусматривал анализ 1000 или около того образцов, которые будут получены во время очистки (чтобы установить, достаточно ли почвы было удалено в каждом месте), чтобы оценить среднее значение после очистки и дисперсию концентрации загрязнителя. Затем (чтобы значительно упростить) я сказал, что мы будем использовать формулу учебника - на основе заданной мощности и размера теста - чтобы определить количество независимых выборок подтверждения, которые будут использоваться для подтверждения того, что очистка прошла успешно.
То, что сделало это незабываемым, было то, что после того, как очистка была сделана, формула сказала, чтобы использовать только 3 образца. Внезапно моя рекомендация выглядела не очень заслуживающей доверия!
Причина, по которой нужно только 3 образца, состоит в том, что очистка была агрессивной и работала хорошо. Это снизило средние концентрации загрязняющих веществ до примерно 100% или менее, что соответствует 100 частям на миллион.
В конце концов этот подход сработал, потому что мы получили 1000 предыдущих образцов (хотя и с более низким аналитическим качеством: они имели большую погрешность измерения), чтобы установить, что сделанные статистические допущения были действительно хорошими для этого участка. Таким образом, обрабатывается вероятность ошибки типа III.
Еще один поворот на ваш взгляд: зная, что регулирующий орган никогда не одобрит использование только 3 образцов, я рекомендовал получить 5 измерений. Они должны были быть сделаны из 25 случайных выборок всего сайта, сгруппированных в группы по 5. Статистически было бы только 5 чисел в окончательном тесте гипотезы, но мы достигли большей способности обнаружить изолированную «горячую точку», взяв 25 физических образцы. Это подчеркивает важную связь между тем, сколько чисел используется в тесте и как они были получены. Существует больше для принятия статистических решений, чем просто алгоритмы с числами!
К моему вечному облегчению, пять составных значений подтвердили, что цель очистки была достигнута.
Другим следствием небольшой выборки является увеличение ошибки типа 2.
В статье «Место статистики в психологии», 1960 г., было продемонстрировано, что маленькие выборки, как правило, не могут отвергнуть точечную нулевую гипотезу. Эти гипотезы являются гипотезами, имеющими некоторые параметры равными нулю, и, как известно, являются ложными в рассмотренном опыте.
Напротив, слишком большие выборки увеличивают ошибку типа 1, потому что значение p зависит от размера выборки, но альфа-уровень значимости фиксирован. Тест на таком образце всегда отвергает нулевую гипотезу. Прочитайте «Незначительность статистической значимости тестирования» Джонсона и Дугласа (1999), чтобы получить общее представление об этой проблеме.
Это не прямой ответ на вопрос, но эти соображения дополняют друг друга.