Триединство тестов с максимальной вероятностью: что делать, когда сталкиваются с противоречивыми выводами?

10

Тесты Вальда, отношения правдоподобия и множителя Лагранжа в контексте оценки максимального правдоподобия асимптотически эквивалентны. Однако для небольших выборок они имеют тенденцию к значительному расхождению, а в некоторых случаях приводят к различным выводам.

Как они могут быть ранжированы в соответствии с вероятностью отклонения нуля? Что делать, если тесты дают противоречивые ответы? Вы можете просто выбрать тот, который дает желаемый ответ, или есть «правило» или «руководство» относительно того, как действовать дальше?

hypothesis-testing maximum-likelihood

— Виви
источник

Может быть, это просто случай, когда асимптотические аппроксимации распределений [null] одной или нескольких из трех тестовых статистик не так хороши? возможно, результаты отличаются, потому что фактические размеры тестов разные? Насколько велики ваши размеры выборки?

— Ронаф

5

Я не знаю литературы в этой области достаточно хорошо, чтобы предложить прямой ответ. Тем не менее, мне кажется, что если три теста отличаются, то это указывает на то, что вам необходимо дальнейшее исследование / сбор данных, чтобы окончательно ответить на ваш вопрос.

Вы также можете посмотреть на этот поиск Google Scholar

Обновление в ответ на ваш комментарий:

Если сбор дополнительных данных невозможен, существует один обходной путь. Проведите симуляцию, которая отражает вашу структуру данных, размер выборки и предложенную модель. Вы можете установить параметры для некоторых предварительно заданных значений. Оцените модель, используя полученные данные, а затем проверьте, какой из трех тестов указывает на правильную модель. Такое моделирование даст некоторые рекомендации относительно того, какой тест использовать для ваших реальных данных. Имеет ли это смысл?

1

Вы имеете в виду конкретную статью? Я полагаю, что смог бы найти ответ на свой вопрос, если бы я много исследовал, изучал, читал, но 95% вопросов, которые другие люди задают здесь, могли бы также ... Кроме того, в некоторых случаях, особенно с данными по макроэкономике (что является моей областью ) больше нет данных для сбора. Данных мало (я имею в виду количество наблюдений), и вам просто нужно с этим жить. Не существует решения «получить больше данных». Я надеялся, что кто-то здесь будет знать тему, но это не похоже. Может быть, когда веб-сайт будет открыт для широкой публики?

— Виви

Я подозреваю, что ответ на ваш вопрос будет зависеть от конкретной области / модели, и, следовательно, я не уверен, что могу порекомендовать конкретную статью.

1

Извините за задержку с ответом. Мне нравится ваше предложение о симуляции. Это не очень легко, хотя. Правда в том, что я вижу на практике, что исследователи просто делают тест, который проще в вычислительном отношении или дает им желаемый результат.

— Виви

8

Я не буду давать однозначного ответа с точки зрения рейтинга трех. Постройте 95% CI вокруг ваших параметров на основе каждого, и если они радикально отличаются, то ваш первый шаг должен быть копать глубже. Преобразование ваших данных (хотя LR будет инвариантным), регуляризация вашей вероятности и т. Д. В крайнем случае, я бы, вероятно, выбрал тест LR и связанный с ним CI. Грубый аргумент следует.

LR инвариантен при выборе параметризации (например, T против логита (T)). Статистика Вальда предполагает нормальность (T - T0) / SE (T). Если это не удается, ваш КИ плох. Хорошая вещь о LR состоит в том, что вам не нужно находить преобразование f (T) для удовлетворения нормальности. 95% ДИ на основе Т будет таким же. Кроме того, если ваша вероятность не квадратична, симметричный 95-процентный доверительный интервал Wald может быть странным, поскольку он может предпочесть значения с более низкой вероятностью, чем значения с более высокой вероятностью.

Еще один способ думать о LR состоит в том, что он использует больше информации, в широком смысле, из функции правдоподобия. Вальд основан на MLE и кривизне вероятности на нуле. Оценка основана на нуле наклона и кривизне на нуле. LR оценивает вероятность при нулевом значении и вероятность при объединении нулевого и альтернативного и объединяет оба. Если вы вынуждены выбрать один, это может быть интуитивно удовлетворительным для выбора LR.

Имейте в виду, что есть другие причины, такие как удобство или расчет, чтобы выбрать Вальд или Оценка. Wald является самым простым, и, учитывая многовариантный параметр, если вы тестируете установку множества отдельных в 0, есть удобные способы приблизить вероятность. Или, если вы хотите добавить переменную за раз из некоторого набора, вы можете не захотеть максимизировать вероятность для каждой новой модели, и реализация тестов Score предлагает некоторое удобство здесь. Wald и Score становятся привлекательными, поскольку ваши модели и вероятность становятся непривлекательными. (Но я не думаю, что это то, что вы спрашивали, так как у вас есть все три доступны ...)

— АРС
источник