Вы правы. Проблема множественных сравнений существует повсюду, но из-за того, как она обычно преподается, люди думают, что она касается сравнения множества групп друг с другом через целую кучу тестов. В действительности, есть много примеров, когда существует проблема множественных сравнений, но где это не похоже на множество парных сравнений; например, если у вас много непрерывных переменных, и вы задаетесь вопросом, коррелированы ли какие-либо из них, у вас возникнет проблема множественных сравнений (см. здесь: посмотрите, и вы найдете корреляцию ). t
Другой пример - тот, который вы подняли. Если бы вы запустили множественную регрессию с 20 переменными, и вы использовали качестве порога, вы бы ожидали, что одна из ваших переменных будет «значимой» только по случайности, даже если все нули были истинными. Проблема множественных сравнений просто вытекает из математики проведения большого количества анализов. Если бы все нулевые гипотезы были верными, а переменные были совершенно некоррелированными, вероятность не ошибочно отклонить любое истинное нулевое значение была бы (например, при это равно ). α=.051 - ( 1 - α ) р р = 5 .231−(1−α)pp=5.23
Первой стратегией, которая поможет избежать этого, является одновременное тестирование вашей модели. Если вы подходите к регрессии OLS, большая часть программного обеспечения даст вам глобальный тест в качестве части вашего вывода по умолчанию. Если вы используете обобщенную линейную модель, большая часть программного обеспечения даст вам аналогичный глобальный критерий отношения правдоподобия. Этот тест даст вам некоторую защиту от ошибок типа I из-за проблемы многократных сравнений (см. Мой ответ здесь: значение коэффициентов в линейной регрессии: значимый t-критерий против незначимой F-статистики ). Аналогичный случай, когда у вас есть категориальная переменная, которая представлена несколькими фиктивными кодами; Вы не хотели бы интерпретировать этиFтt-test, но отбрасывает все фиктивные коды и вместо этого выполняет тест вложенной модели.
Другой возможной стратегией является использование процедуры альфа-корректировки, такой как коррекция Бонферрони. Вы должны понимать, что это снизит ваши возможности, а также уменьшит частоту ошибок типа I в вашей семье. Стоит ли этот компромисс - это решение для вас. (FWIW, я обычно не использую альфа-поправки в множественной регрессии.)
Что касается вопроса использования значений для выбора модели, я думаю, что это действительно плохая идея. Я бы не стал переходить от модели с 5 переменными к одной только с 2, потому что остальные были «несущественными». Когда люди делают это, они смещают свою модель. Это может помочь вам прочитать мой ответ здесь: алгоритмы для автоматического выбора модели, чтобы понять это лучше. p
Что касается вашего обновления, я бы не советовал вам сначала оценивать одномерные корреляции, чтобы решить, какие переменные использовать в окончательной модели множественной регрессии. Выполнение этого приведет к проблемам с эндогенностью, если переменные совершенно не связаны друг с другом. Я обсуждал эту проблему в своем ответе здесь: Оценка вместоb1x1+b2x2b1x1+b2x2+b3x3 .
Что касается вопроса о том, как обрабатывать анализы с различными зависимыми переменными, то, хотите ли вы использовать какие-либо корректировки, зависит от того, как вы видите анализы относительно друг друга. Традиционная идея состоит в том, чтобы определить, считаются ли они «семьей». Это обсуждается здесь: что может быть четким, практическим определением для «семейства гипотез»? Вы также можете прочитать эту тему: Методы для прогнозирования нескольких зависимых переменных .