Надежный t-критерий для среднего


17

Я пытаюсь проверить нулевое значение сравнении с локальной альтернативой E [ X ] > 0 для случайной величины X , подверженной небольшому или среднему перекосу и эксцессу случайной величины. Следуя предложениям Уилкокса в «Введении в робастную оценку и проверку гипотез», я рассмотрел тесты, основанные на усеченном среднем, медиане, а также М-оценке местоположения («одношаговая» процедура Уилкокса). Эти надежные тесты превосходят стандартные t-тесты по мощности при тестировании с дистрибутивом, не подверженным перекосу, но лептокуртотическим.E[X]=0E[X]>0X

Однако при тестировании с искаженным дистрибутивом эти односторонние тесты либо слишком либеральны, либо слишком консервативны при нулевой гипотезе, в зависимости от того, искажено ли распределение влево или вправо соответственно. Например, при 1000 наблюдениях тест, основанный на медиане, фактически отклонит ~ 40% времени при номинальном уровне 5%. Причина этого очевидна: для искаженных распределений медиана и среднее довольно разные. Однако в моем приложении мне действительно нужно проверить среднее значение, а не среднее значение, а не усеченное среднее значение.

Существует ли более надежная версия t-критерия, которая фактически проверяет среднее значение, но не подвержена перекосам и эксцессам?

В идеале процедура будет хорошо работать и в случае отсутствия перекоса и высокого куртоза. «Одностадийный» тест почти достаточно хорош, с параметром «изгиб», установленным относительно высоким, но он менее мощный, чем тесты с усеченным средним, когда нет перекоса, и имеет некоторые проблемы с поддержанием номинального уровня отклонений при перекосе. ,

Предыстория: причина, по которой я действительно беспокоюсь о среднем, а не о медиане, заключается в том, что тест будет использоваться в финансовой заявке. Например, если вы хотите проверить, имел ли портфель положительные ожидаемые журнальные доходы, среднее значение действительно подходит, потому что если вы инвестируете в портфель, вы получите все доходы (то есть среднее число раз выборок) вместо дубликатов медианы. То есть, я на самом деле волнует сумма п черпает из RV X .nnX


Есть ли причина, запрещающая использование t-критерия Уэлча? Посмотрите на мой ответ на этот вопрос ( stats.stackexchange.com/questions/305/… ), где я ссылаюсь на статью, в которой предлагается использовать Уэлч в случае ненормальности и гетероскедастичности.
Хенрик

1
Ну, проблема в том, что я хочу тест с 1 образцом, а не тест с 2 образцами! Я тестирую ноль , а не E [ X 1 ] = E [ X 2 ] . Я посмотрю Kubinger et. al., paper (Ich kann schlecht Deutsche). Е[Икс]знак равноμЕ[Икс1]знак равноЕ[Икс2]
Шаббычеф

Спасибо за разъяснение. В этом случае бумага Kubinger вам не очень поможет. Я прошу прощения.
Хенрик

Ответы:


5

Почему вы смотрите на непараметрические тесты? Нарушены ли предположения t-критерия? А именно, порядковые или ненормальные данные и непостоянные отклонения? Конечно, если ваша выборка достаточно велика, вы можете обосновать параметрический t-тест его большей мощностью, несмотря на отсутствие нормальности в выборке. Аналогичным образом, если вас беспокоит неравное отклонение, в параметрическом тесте есть поправки, которые дают точные значения p (поправка Уэлча).

В противном случае сравнение ваших результатов с t-тестом не является хорошим способом для этого, потому что результаты t-теста смещаются, когда предположения не выполняются. Mann-Whitney U - подходящая непараметрическая альтернатива, если это то, что вам действительно нужно. Вы теряете силу только в том случае, если используете непараметрический критерий, когда можете обоснованно использовать критерий Стьюдента (поскольку предположения выполнены).

И, просто для дополнительной информации, иди сюда ...

http://www.jerrydallal.com/LHSP/STUDENT.HTM


данные совершенно определенно не нормальны. избыточный эксцесс - порядка 10-20, перекос - от -0,2 до 0,2. Я делаю 1-образный t-тест, поэтому я не уверен, что следую за вами в отношении «неравных отклонений» или U-теста.
Шаббычеф

Я принимаю совет «использовать параметрический тест». это не совсем решает мой вопрос, но мой вопрос, вероятно, был слишком открытым.
Шаббычеф

12

Я согласен, что если вы хотите на самом деле проверить, отличаются ли средние значения группы (в отличие от проверки различий между медианами группы или усредненными значениями и т. Д.), То вы не хотите использовать непараметрический критерий, который проверяет другую гипотезу.

  1. В целом значения р из t-критерия имеют тенденцию быть достаточно точными, учитывая умеренные отклонения от предположения о нормальности остатков. Проверьте этот апплет, чтобы получить интуицию об этой надежности: http://onlinestatbook.com/stat_sim/robustness/index.html

  2. Если вы по-прежнему обеспокоены нарушением предположения о нормальности, вы можете захотеть начать . например, http://biostat.mc.vanderbilt.edu/wiki/pub/Main/JenniferThompson/ms_mtg_18oct07.pdf

  3. Вы также можете преобразовать перекос зависимой переменной, чтобы решить проблемы с отклонениями от нормального.


2
+1 приятный и понятный ответ. Джером, могу я задать вопрос по пункту 3? Я понимаю причины преобразования данных, но что-то меня всегда беспокоило. Какова достоверность представления результатов t-теста на преобразованных данных в нетрансформированные данные (если вам не «разрешено» делать t-тест)? Другими словами, если две группы различаются, когда данные, например, преобразуются в журнал, на каких основаниях можно сказать, что исходные данные также различаются? Не бери в голову, я не статистика, так что, может быть, я просто сказал что-то абсолютно глупое :)
Нико

2
@nico Я не уверен, как сообщать или думать о результатах, но если все, что вы хотите показать, это то, что для некоторых X и Y, mu_X! = mu_Y, должно быть верно, что для всех X_i <X_j, log ( X_i) <log (X_j) и для всех всех X_i> X_j, log (X_i)> log (X_j). Вот почему для непараметрических тестов, которые работают с рангами, преобразования данных не влияют на результат. Я думаю из этого, вы можете предположить, что если какой-то тест показывает, что mu_log (X)! = Mu_log (Y), то mu_X! = Mu_Y.
JoFrhwld

спасибо за ответ (ы). действительно, t-критерий, по-видимому, поддерживает номинальную скорость типа I при слабом перекосе / куртотике. Однако я надеялся на что-то более мощное. Что касается : 2, я реализовал Wilcox ' trimpbи trimcibt, но они слишком медленные, чтобы проводить мои силовые тесты, по крайней мере, на мой вкус. В отношении: 3, я думал об этом методе, но меня интересует среднее значение нетрансформированных данных (т. е. я не сравниваю 2 RV с t-тестом, и в этом случае монотонное преобразование подойдет для сравнение на основе рангов, как отмечает @JoFrhwld.)
shabbychef

2
@nico Если распределение остатков в популяции одинаково в двух группах, то я думаю, что в любое время есть разница в необработанных группах населения, что означает, что также будут различия в групповых способах преобразования, сохраняющего порядок. При этом значения p и доверительные интервалы будут слегка меняться в зависимости от того, используете ли вы необработанные или преобразованные данные. В целом я предпочитаю использовать преобразования, когда они кажутся значимой метрикой для понимания переменной (например, шкала Рихтера, децибелы, журналы счетчиков и т. Д.).
Jeromy Anglim


0

У меня недостаточно репутации для комментария, поэтому я отвечаю: посмотрите на этот расчет. Я думаю, что это дает отличный ответ. Вкратце:

Асимптотическое поведение намного более чувствительно к отклонениям от нормальности в форме асимметрии, чем в форме эксцесса ... Таким образом, t-критерий Стьюдента чувствителен к асимметрии, но относительно устойчив к тяжелым хвостам, и разумно использовать тест для нормальность, которая направлена ​​на асимметрию альтернатив до применения t-критерия.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.