Неравные размеры выборки: когда вызывать

14

Я рецензирую статью в академическом журнале, и авторы написали следующее в качестве оправдания для того, чтобы не сообщать какие-либо логические выводы (я определил природу двух групп):

В общей сложности 25 из 2349 (1,1%) респондентов сообщили X . Мы надлежащим образом воздерживаемся от представления анализов, которые статистически сравнивают группу X с группой Y (другими 2324 участниками), поскольку эти результаты могут быть в значительной степени обусловлены случайностью с таким редким исходом.

Мой вопрос: оправданы ли авторы этого исследования, если вы добавляете полотенце в сравнение групп? Если нет, что я мог бы порекомендовать им?

— Аарон Дьюк
источник

20

Статистические тесты не делают предположений о размере выборки. Конечно, существуют разные предположения с различными тестами (например, нормальность), но равенство размеров выборки не является одним из них. Если используемый тест не является неуместным каким-либо другим способом (я не могу думать о проблеме прямо сейчас), частота ошибок типа I не будет зависеть от резко неравных размеров групп. Более того, их формулировка подразумевает (на мой взгляд), что они верят, что так и будет. Таким образом, они запутались в этих вопросах.

С другой стороны, частота ошибок типа II будет очень сильно зависеть от неравных s. Это будет верно независимо от того, какой тест (например, тест, тест Манна-Уитни или тест на равенство пропорций будет затронут таким образом). Пример этого см. В моем ответе здесь: Как следует интерпретировать сравнение средних значений для разных размеров выборки? Таким образом, они вполне могут быть «оправданы в том, чтобы бросать полотенце» по этому вопросу. (В частности, если вы ожидаете получить незначительный результат, реальный эффект или нет, в чем смысл теста?) $n$ $t$ $U$ $z$

Поскольку размеры выборки расходятся, статистическая мощность будет сходиться к . Этот факт на самом деле приводит к другому предположению, о котором, я подозреваю, мало кто когда-либо слышал, и, вероятно, было бы трудно найти прошлых рецензентов (без обид): анализ компромисса . Идея относительно проста: в любом анализе мощности , , , и величина эффекта существуют по отношению друг к другу. Указав все, кроме одного, вы можете решить для последнего. Как правило, люди делают то, что называется априорным анализом мощности , в котором вы решаете для $\alpha$ $\alpha$ $\beta$ $n_1$ $n_2$ $d$ $N$ (как правило, вы предполагаете, что ). С другой стороны, вы можете исправить , и и решить для (или эквивалентно ), если вы укажете отношение ошибок типа I к типу II, с которыми вы готовы жить. Обычно и , поэтому вы говорите, что ошибки типа I в четыре раза хуже, чем ошибки типа I. Конечно, данный исследователь может не согласиться с этим, но, указав определенное соотношение, вы можете решить, для чего $n_1=n_2$ $n_1$ $n_2$ $d$ $\alpha$ $\beta$ $\alpha=.05$ $\beta=.20$ $\alpha$ Вы должны использовать для того, чтобы поддерживать некоторую адекватную мощность. Этот подход является логически обоснованным вариантом для исследователей в этой ситуации, хотя я признаю, что экзотичность этого подхода может сделать его жестким предложением в более широком исследовательском сообществе, которое, вероятно, никогда не слышало о такой вещи.

— Gung - Восстановить Монику
источник

Это невероятно полезно. Я также нашел ваш ответ на Как следует интерпретировать сравнение средних по размеру выборки? полезно в моем собственном понимании этого вопроса. После прочтения вашего ответа я расскажу авторам о возможности компромиссного анализа мощности (звучит как надежная ставка на то, что они не знакомы с ним) и, возможно, предложу более подробно изложить свои комментарии в отношении опасений относительно власти.

— Аарон Герцог

2

Пожалуйста, @AaronD. По моему мнению, вы должны определенно поощрять их к изменению формулировок как минимум, поскольку это либо вводит в заблуждение, либо подразумевает, что они неправильно понимают тему. Я бы предсказал, что они не попытаются провести анализ компромиссной мощности, но они также могли бы просто сообщить описательную статистику (средние значения и SD) и величину эффекта с соответствующими доверительными интервалами.

— gung - Восстановить Монику

6

Хотя ответ @gung превосходен, я думаю, что есть одна важная проблема, которую следует учитывать при рассмотрении дико разных размеров групп. Как правило, пока все требования теста выполнены, разница в размерах группы не важна.

Тем не менее, в некоторых случаях разный размер группы будет иметь драматическое влияние на устойчивость теста к нарушениям против этих предположений. Классический непарный t-критерий с двумя выборками, например, предполагает однородность дисперсии и устойчив к нарушениям, только если обе группы имеют одинаковый размер (по порядку величины). В противном случае более высокая дисперсия в меньшей группе приведет к ошибкам типа I. Теперь с t-тестом это не является большой проблемой, так как обычно вместо этого используется t-критерий Уэлча, и он не предполагает однородности дисперсии. Однако подобные эффекты могут возникать в линейных моделях.

Подводя итог, я бы сказал, что это никоим образом не является препятствием для статистического анализа, но его следует учитывать при принятии решения о том, как действовать.

— Erik
источник

8

Я считаю, что суть здесь не в применимости тестов, а в их значимости и интерпретируемости. Вопрос относится к «респондентам». Это настоятельно предполагает возможность ненулевой частоты отсутствия ответов. Даже крошечный показатель отсутствия ответов (небольшая доля в один процент) по отношению к размеру исследования может привести к огромному числу случаев отсутствия ответов по сравнению с небольшой подгруппой. Это ставит под сомнение репрезентативность любой небольшой подгруппы. В результате это является огромным препятствием для любого статистического анализа.

— whuber