Выбор между -test и -test

Справочная информация: Я делаю презентацию для коллег по работе по проверке гипотез, и понимаю, что большинство из них прекрасно, но есть один аспект, который я связываю себя в узлах, пытаясь понять, а также объяснить это другим.

Это то, что я думаю, я знаю (пожалуйста, исправьте, если не так!)

Статистические данные, которые были бы нормальными, если бы дисперсия была известна, следуют распределению, если дисперсия неизвестна $t$
CLT (Центральная предельная теорема): выборочное распределение среднего значения выборки приблизительно нормальное для достаточно большого (может быть , может быть до для сильно искаженных распределений) $n$ $30$ $300$
-распределение можно считать нормальным для степеней свободы $t$ $> 30$

Вы используете -test, если: $z$

Население нормальное и дисперсия известна (для любого размера выборки)
Население нормальное, дисперсия неизвестна и (из-за CLT) $n>30$
Бином населения, , $np>10$ $nq>10$

Вы используете тест, если: $t$

Население нормальное, дисперсия неизвестна и $n<30$
Нет знаний о населении или дисперсии и , но выборочные данные выглядят нормальными / проходят тесты и т. Д., Поэтому популяция может считаться нормальной $n<30$

Так что я остался с:

Для образцов и (?), Никакие знания о населении и дисперсии известны / неизвестны. $>30$ $<\approx 300$

Итак, мои вопросы:

При каком размере выборки вы можете предположить (если нет сведений о распределении или дисперсии населения), что распределение среднего значения выборки является нормальным (т. Е. Наступил CLT), когда распределение выборки выглядит ненормальным? Я знаю, что в некоторых дистрибутивах нужно , но некоторые ресурсы, похоже, используют -test всякий раз, когда ... $n>300$ $z$ $n>30$
Для случаев, в которых я не уверен, я полагаю, что я смотрю на данные для нормальности. Теперь, если выборочные данные выглядят нормально, я использую тест (так как предположим, что популяция нормальная, и так как )? $z$ $n>30$
Как насчет того, где образцы данных для случаев, в которых я не уверен, не выглядят нормально? Есть ли какие-либо обстоятельства, когда вы все еще используете тест или тест, или вы всегда пытаетесь преобразовать / использовать непараметрические тесты? Я знаю, что из-за CLT при некотором значении распределение среднего значения будет приблизительно нормальным, но данные выборки не скажут мне, что это за значение ; данные выборки могут быть ненормальными, тогда как среднее значение выборки следует за нормальным значением / . Были ли случаи, когда вы преобразовывали / использовали непараметрический тест, когда на самом деле распределение выборки среднего было нормальным / но вы не могли сказать? $t$ $z$ $n$ $n$ $t$ $t$

— Хатти
источник

« может быть до 300 для сильно искаженных дистрибутивов » ... в некоторых случаях это может быть чертовски много больше; или это может никогда не произойти. Выберите любое , и я покажу вам случай, когда этого недостаточно.

n

$n$

— Glen_b

Спасибо Glen_b - так что всегда проверяйте, чтобы данные образца выглядели нормально, чтобы использовать параметрические параметры?

— Хатти

@ Хатти Нету! T-тест действителен, когда данные выглядят ненормальными.

— AdamO

Ответы:

@ AdamO прав, вы просто всегда используете тест, если вы не знаете стандартное отклонение популяции априори. Вам не нужно беспокоиться о том, когда переключаться на тест, потому что -распределение «переключается» для вас. Более конкретно, -распределения сходится к нормали, таким образом , это правильное распределение для использования на каждый . $t$ $z$ $t$ $t$ $N$

Здесь также возникает путаница относительно значения традиционной линии при . Есть два вида конвергенции, о которых говорят люди: $N=30$

Во-первых, распределение выборки тестовой статистики ( Е. ), вычисленной из нормально распределенных (внутри группы) необработанных данных, сходится к нормальному распределению при несмотря на то, что SD оценивается по данным. ( дистрибуция позаботится об этом за вас, как отмечено выше.) $t$ $N\rightarrow\infty$ $t$
Во - вторых, распределение выборки среднее не-нормально распределены ( в пределах группы) сходится необработанные данные к нормальному распределению (более медленно , чем выше), $N\rightarrow\infty$ . Люди рассчитывают на Центральную предельную теорему, чтобы позаботиться об этом за них. Тем не менее, нет никакой гарантии, что он будет сходиться в пределах любого разумного размера выборки - нет никаких оснований полагать, что $30$ (или $300$ ) магическое число. В зависимости от величины и характера ненормальности, это может занять очень много времени (см. Здесь ответ @ Macro: регрессия, когда остатки OLS обычно не распределяются). Если вы считаете , что ваши ( в пределах группы) исходные данные не очень нормально, это может быть лучше использовать другой тип теста, например, Манна-Уитни $U$ -теста . Обратите внимание, что с ненормальными данными $U$ тест Манна-Уитни , вероятно, будет более мощным, чем $t$ тест, и может быть таковым, даже если CLT включился. (Также стоит указать, что тестирование на нормальность может привести вас в заблуждение, понимаете: тестирование нормальности «по сути бесполезно»? )

В любом случае, чтобы ответить на ваши вопросы более четко, если вы считаете, что ваши (внутри группы) необработанные данные обычно не распространяются, используйте $U$ тест Манна-Уитни ; если вы считаете, что ваши данные нормально распространяются, но вы не знаете SD a priori, используйте $t$ -test; и если вы считаете, что ваши данные нормально распространяются, и вы знаете SD a priori, используйте $z$ -test.

Это может помочь вам прочитать недавний ответ @ GregSnow здесь: Интерпретация p-значения при сравнении пропорций между двумя небольшими группами в R также в отношении этих вопросов.

— Gung - Восстановить Монику
источник

Спасибо, это было действительно полезно, я знал, что это слишком усложняло, так как t-критерий для больших n приближается к нормальному. Строго говоря, даже если n было 1000, следует использовать критерий Стьюдента, если SD не известна априори?

— Хатти

Пожалуйста. Строго говоря, да , но учтите, что очень трудно определить разницу между

-распределением и нормальным распределением в этой точке.

t

$t$

— gung - Восстановить Монику

Да, безусловно. Извините, что был настолько привередливым, просто трудно думать о том, как объяснить это другим черным и белым способом. Спасибо за помощь, спасибо!

— Хатти

Также обратите внимание, что в настоящее время вычисление результатов t-теста предназначено для любых целей и задач без значительных дополнительных вычислительных затрат. Мы больше не ищем статистику тестов в некоторых бумажных таблицах, которые не могут охватить все случаи, мы просто просим компьютер. Итак, зачем беспокоиться о том, можете ли вы также получить те же результаты, используя z-тест?

— Бьёрн

$t$

$t$ $t$ $z$

$t$ $z$

$z$ $t$

— Adamo
источник

Всегда используйте t-критерий для непараметрической проверки различий в средних значениях. Вы имеете в виду параметрический, не так ли?

— Ксавье Бурре Сикот