Является ли корректной корректировка значений p в множественной регрессии для множественных сравнений?

54

Предположим, что вы - исследователь в области социальных наук / эконометрик и пытаетесь найти соответствующие предикторы спроса на услугу. У вас есть 2 итоговые / зависимые переменные, описывающие спрос (используя сервис да / нет и количество случаев). У вас есть 10 предикторов / независимых переменных, которые теоретически могут объяснить спрос (например, возраст, пол, доход, цена, раса и т. Д.). Выполнение двух отдельных множественных регрессий даст 20 оценок коэффициентов и их p-значения. С достаточным количеством независимых переменных в ваших регрессиях вы рано или поздно найдете хотя бы одну переменную со статистически значимой корреляцией между зависимыми и независимыми переменными.

Мой вопрос: это хорошая идея, чтобы исправить p-значения для нескольких тестов, если я хочу включить все независимые переменные в регрессию? Любые ссылки на предыдущую работу высоко ценится.

— Микаэль М
источник

хммм ... интересная проблема - двумерная регрессия с одной переменной [своего рода] непрерывной и одной дихотомической. Обычная теория регрессии MVN гласит, что выполнение отдельных регрессий для каждого из двух двумерных нормальных ответов - и затем сложение результатов воедино - является правильным анализом - в смысле Гаусса-Маркова минимизации vc-матрицы оценок регрессии среди всех несмещенных линейных оценок - и в случае MVN среди всех непредвзятых оценщиков. Является ли «отдельные регрессии» все еще лучшим, когда одна регрессия является логистической? [в этом случае непредвзятость кажется немного

— натянутой, за исключением

48

Похоже, ваш вопрос в более общем плане касается проблемы определения хороших предикторов. В этом случае вам следует рассмотреть возможность использования какой-либо наказанной регрессии (методы , относящиеся к выбору переменных или признаков , также актуальны), например, с штрафами L1, L2 (или их комбинацией, так называемой эластичной сетью ) (ищите связанные вопросы на этот сайт, или R нарушает и elasticnet пакет, среди прочих).

Теперь о корректировке p-значений для ваших коэффициентов регрессии (или, что то же самое, ваших коэффициентов частичной корреляции) для защиты от чрезмерного оптимизма (например, с помощью Bonferroni или, что лучше, методов понижения), это будет иметь значение только в том случае, если вы рассматриваете одну модель и ищите те предикторы, которые вносят значительный вклад в объясненную дисперсию, то есть, если вы не выполняете выбор модели (с пошаговым выбором или иерархическим тестированием). Эта статья может стать хорошим началом: корректировки Бонферрони в тестах для коэффициентов регрессии . Имейте в виду, что такая коррекция не защитит вас от проблемы мультиколлинеарности, которая влияет на сообщаемые значения p.

stepAIC $R^2$

Следует отметить, что ступенчатые подходы также имеют свои недостатки (например, тесты Вальда не адаптированы к условной гипотезе, индуцированной пошаговой процедурой) или, как указано Фрэнком Харреллом в рассылке R , «пошаговый выбор переменных на основе AIC имеет все проблемы пошагового выбора переменных на основе значений P. AIC - это просто повторение значения P "(но AIC остается полезным, если набор предикторов уже определен); связанный вопрос - Является ли переменная значимой в модели линейной регрессии? - поднял интересные комментарии ( @Rob , среди прочих) об использовании AIC для выбора переменных. В конце я добавляю несколько ссылок (включая статьи, любезно предоставленные @Stephan); есть также много других ссылок на P.Mean .

Фрэнк Харрелл написал книгу о стратегии регрессионного моделирования, в которой много обсуждений и советов по этой проблеме (§4.3, с. 56-60). Он также разработал эффективные подпрограммы R для работы с обобщенными линейными моделями (см. Пакеты Design или rms ). Итак, я думаю, что вы обязательно должны взглянуть на это (его раздаточные материалы доступны на его домашней странице).

Рекомендации

Whittingham, MJ, Stephens, P, Bradbury, RB, и Freckleton, RP (2006). Почему мы все еще используем ступенчатое моделирование в экологии и поведении? Журнал Экологии животных , 75 , 1182-1189.
Остин, ПК (2008). Выбор модели Bootstrap имел схожие характеристики для выбора достоверных и шумовых переменных по сравнению с устранением обратных переменных: имитационное исследование . Журнал клинической эпидемиологии , 61 (10) , 1009-1017.
Остин, ПК и Ту, СП (2004). Методы автоматического выбора переменных для логистической регрессии дали нестабильные модели для прогнозирования острой смертности от инфаркта миокарда . Журнал клинической эпидемиологии , 57 , 1138–1146.
Гренландия, S (1994). Иерархическая регрессия для эпидемиологического анализа множественных воздействий . Перспективы гигиены окружающей среды , 102 (Приложение 8) , 33–39.
Гренландия, S (2008). Многочисленные сравнения и выбор ассоциаций в общей эпидемиологии . Международный журнал эпидемиологии , 37 (3) , 430-434.
Beyene, J, Atenafu, EG, Hamid, JS, To, T и Sung L (2009). Определение относительной важности переменных в разработке и валидации прогнозных моделей . BMC Методология медицинских исследований , 9 , 64.
Bursac, Z, Gauss, CH, Williams, DK, и Hosmer, DW (2008). Целенаправленный выбор переменных в логистической регрессии . Исходный код для биологии и медицины , 3 , 17.
Brombin, C, Finos, L, и Salmaso, L (2007). Корректировка пошаговых p-значений в обобщенных линейных моделях . Международная конференция по процедурам множественных сравнений . - см. step.adj()в пакете R someMTP .
Wiegand, RE (2010). Производительность использования нескольких пошаговых алгоритмов для выбора переменных . Статистика в медицине , 29 (15), 1647–1659.
Moons KG, Donders AR, Steyerberg EW и Harrell FE (2004). Оценка максимального правдоподобия с целью наказания для прогнозирования бинарных результатов. Журнал клинической эпидемиологии , 57 (12) , 1262–1270.
Tibshirani, R (1996). Регрессивная усадка и отбор с помощью лассо . Журнал Королевского статистического общества B , 58 (1) , 267–288.
Efron, B, Hastie, T, Johnstone, I, и Tibshirani, R (2004). Регрессия наименьшего угла . Летопись статистики , 32 (2) , 407-499.
Flom, PL и Cassell, DL (2007). Остановка пошагово: почему пошаговые и похожие методы выбора плохи, и что вы должны использовать . NESUG 2007 Материалы .
Штатланд Е.С., Каин Е. и Бартон М.Б. (2001). Опасности ступенчатой логистической регрессии и как избежать их, используя информационные критерии и систему доставки продукции . СУГИ 26 Слушания (стр. 222–226).

— хл
источник

10

Я не возражаю против понижения голоса, но комментарий будет оценен (так что я могу учиться сам, понимать, что было не так, и улучшать свои будущие ответы).

— ЧЛ

3

+1, хороший ответ, а также дополнительный комментарий chl о том, как оставить объяснение понижающим голосам, чтобы помочь как автору, так и читателям понять, чего может не хватать. Благодарю.

— АРС

Во-вторых, я рекомендую использовать глухую регрессию (например, лассо).

— С. Коласса - Восстановить Монику

10

@chl: я недоволен рекомендацией пошагового выбора предиктора. Обычно это основано на значениях p («исключите предиктор с p> .15, включите его, если p <.05») и приводит к смещенным оценкам и плохой прогностической эффективности (Whittingham et al., 2006, почему мы до сих пор Использовать пошаговое моделирование в экологии и поведении? J Anim Ecol, 75, 1182-1189). Однако поэтапные подходы на основе AIC имеют тот же недостаток - Фрэнк Харрелл обсуждал это в посте к R-help в понедельник, 9 августа 2010 г. 16:34:19 -0500 (CDT) в теме «Логистическая регрессия в R (SAS - нравится вывод)

— С. Коласса - Восстановить Монику

Есть ли способ включить ссылки в комментарии?

— С. Коласса - Восстановить Монику

25

В значительной степени вы можете делать все, что вам нравится, при условии, что вы держите достаточно данных случайным образом, чтобы протестировать любую модель, которую вы придумали, на основе сохраненных данных. Разделение на 50% может быть хорошей идеей. Да, вы теряете некоторую способность обнаруживать отношения, но то, что вы получаете, огромно; а именно, возможность тиражировать вашу работу до ее публикации. Независимо от того, насколько сложны статистические методы, которые вы применяете, вы будете шокированы тем, как много «значимых» предикторов оказываются совершенно бесполезными при применении к данным подтверждения.

Помните также, что «релевантность» для предсказания означает больше, чем низкое значение p. В конце концов, это только означает, что, вероятно, отношения, обнаруженные в этом конкретном наборе данных, не являются случайными. Для прогнозирования на самом деле более важно найти переменные, которые оказывают существенное влияние на прогноз (без чрезмерного соответствия модели); то есть, чтобы найти переменные, которые, вероятно, являются «реальными» и, когда они варьируются в пределах разумного диапазона значений (а не только значений, которые могут встречаться в вашей выборке!), приводят к значительному изменению предсказания. Если у вас есть данные для подтверждения модели, вам будет удобнее временно сохранять незначительные «значимые» переменные, которые могут не иметь низких значений p.

По этим причинам (и основываясь на точном ответе chl), хотя я нашел ступенчатые модели, сравнения AIC и поправки Бонферрони весьма полезными (особенно с сотнями или тысячами возможных предикторов в игре), они не должны быть единственными определяющими, какие переменные введите вашу модель. Также не следует упускать из виду руководство, данное теорией: переменные, имеющие сильное теоретическое обоснование для того, чтобы быть в модели, обычно должны храниться, даже если они незначительны, при условии, что они не создают плохо обусловленных уравнений ( например, коллинеарность) ,

NB . После того, как вы определились с моделью и подтвердили ее полезность с помощью данных об удержании, можно объединить оставшиеся данные с данными об удержании для окончательной оценки. Таким образом, ничего не теряется с точки зрения точности, с которой вы можете оценить коэффициенты модели.

— Whuber
источник

Спасибо! Если у вас нет доступа к исходным данным, а есть только таблица коэффициентов регрессии, является ли корректировка Бонферрони вашим единственным выбором?

— Микаэль М

4

Предположительно у вас также есть p-значения :-). Но, учитывая только эти коэффициенты и коэффициенты, трудно представить, что еще можно сделать, кроме корректировки Бонферрони. (Я всегда делаю такую настройку, когда читаю какую-либо статью с несколькими тестами: это быстрый способ определить результаты, которые могут оказаться нежелательными.) Большинство людей также предоставляют сводную статистику для переменных: вы можете использовать диапазоны или sds вместе с коэффициенты для оценки степени влияния каждой объясняющей переменной на прогнозируемую величину.

— whuber

Спасибо за ваше объяснение, особенно на перекрестную проверку. Я ценю ваш последний аргумент, то есть, что мы также должны искать теоретическую значимость (помимо значений p).

— ЧЛ

19

Я думаю, что это очень хороший вопрос; он попадет в сердце спорных множественного тестирования «проблемы» , которая отравляет поля в диапазоне от эпидемиологии до эконометрики. В конце концов, как можно нам знать , если значение мы находим поддельный или нет? Насколько верна наша многомерная модель?

С точки зрения технических подходов для компенсации вероятности публикации шумовых переменных, я бы от всей души согласился с тем, что использование части вашего образца в качестве обучающих данных, а остальных - в качестве тестовых данных - хорошая идея. Этот подход обсуждается в технической литературе, поэтому, если вы потратите время, вы, вероятно, сможете найти некоторые хорошие рекомендации относительно того, когда и как его использовать.

Но чтобы более прямо взглянуть на философию множественного тестирования, я предлагаю вам прочитать статьи, на которые я ссылаюсь ниже, некоторые из которых подтверждают позицию, согласно которой корректировка множественного тестирования часто вредна (стоит затрат), ненужна и даже может быть логической ошибкой. , Я, например, не принимаю автоматически утверждение о том, что наша способность расследовать одного потенциального предиктора неумолимо снижается в результате расследования другого. Семьи мудры Тип 1 частота ошибок может возрастать по мере включать больше предсказателей в данной модели, но до тех пор , пока мы не выходим за пределы нашего образца размера, вероятность ошибки типа 1 для каждого человекапредиктор постоянен; и контроль за семейной ошибкой не показывает, какая конкретная переменная является шумом, а какая нет. Конечно, есть и убедительные контраргументы.

Таким образом, до тех пор, пока вы ограничиваете свой список потенциальных переменных теми, которые являются правдоподобными (т. Е. Имели бы известные пути к результату), тогда риск ложности уже достаточно хорошо обрабатывается.

Однако я хотел бы добавить, что прогнозирующая модель не столько связана с «истинностью-ценностью» своих предикторов, сколько причинная модель; в модели может быть много путаницы, но пока мы объясняем большую степень отклонения, мы не слишком обеспокоены. Это облегчает работу, по крайней мере, в одном смысле.

Ура,

Бренден, биостатистический консультант

PS: вы можете захотеть сделать регрессию Пуассона с нулевым раздуванием для данных, которые вы описываете, вместо двух отдельных регрессий.

Пернегер, ТВ Что не так с настройками Бонферрони . BMJ 1998; 316: 1236
Кук, RJ & Farewell, VT соображения множественности при разработке и анализе клинических испытаний . Журнал Королевского статистического общества , серия A 1996; Том 159, № 1: 93-110
Ротман, К.Дж. Никаких корректировок не требуется для множественных сравнений . Эпидемиология 1990; Том 1, № 1: 43-46
Маршалл Дж. Р. Дноуглубительные работы и примечания . Эпидемиология 1990; Том 1, № 1: 5-7
Гренландия, С. & Робинс, Дж. М. Эмпирические-байесовские корректировки для множественных сравнений иногда полезны . Эпидемиология 1991; Том 2, № 4: 244-251

— Brenden
источник

Продолжение: 2. Кук Р.Дж. и прощай В.Т. Вопросы множественности при разработке и анализе клинических испытаний. Журнал Королевского статистического общества, серия A 1996; Том 159, № 1: 93-110

— Бренден,

Спасибо за ваши комментарии, Бренден, особенно последний за предсказание против причинного объяснения. И добро пожаловать на сайт! Я надеюсь увидеть еще много вашего вклада в будущем.

— whuber

Продолжение: 3. Ротман К.Д. Никаких корректировок не требуется для множественных сравнений. Эпидемиология 1990; Том 1, № 1: 43-46 4. Маршалл Дж. Р. Дноуглубительные работы и примечание. Эпидемиология 1990; Том 1, No. 1: 5-7 5. Гренландский С. и Робинс Дж. М. Эмпирические-байесовские корректировки для множественных сравнений иногда полезны. Эпидемиология 1991; Том 2, № 4: 244-251

— Бренден,

(+1) Вас может заинтересовать следующая тема: stats.stackexchange.com/questions/3252/… . Кажется, у нас много общих ссылок :-)

— chl

6

Здесь есть хорошие ответы. Позвольте мне добавить пару небольших моментов, которые я не вижу в другом месте.

Во-первых, какова природа ваших переменных ответа? Более конкретно, понимаются ли они как связанные друг с другом? Вы должны делать только две отдельные множественные регрессии, если они считаются независимыми (теоретически) / если остатки от двух моделей независимы (эмпирически). В противном случае вы должны рассмотреть многомерную регрессию. («Многомерный» означает> 1 переменную ответа; «множественный» означает> 1 переменную предиктора.)

$F$

— Gung - Восстановить Монику
источник

0

Вы можете сделать, по-видимому, не связанную регрессию и использовать F-тест. Поместите ваши данные в такую форму:

Out1 1 P11 P12 0  0   0
Out2 0 0   0   1  P21 P22

так что предикторы для вашего первого результата имеют свои значения, когда этот результат является переменной y и 0 в противном случае и наоборот. Таким образом, у вас есть список обоих результатов. P11 и P12 являются двумя предикторами для первого результата, а P21 и P22 являются двумя предикторами для второго результата. Если секс, скажем, является предиктором для обоих результатов, его использование для прогнозирования результата 1 должно быть в отдельной переменной / столбце при прогнозировании результата 2. Это позволяет вашей регрессии иметь разные наклоны / воздействия для пола для каждого результата.

В этой структуре вы можете использовать стандартные процедуры тестирования F.

— Чарли
источник