Из того, что я понимаю, выбор переменных на основе p-значений (по крайней мере, в контексте регрессии) является в высшей степени ошибочным. Похоже, что выбор переменных на основе AIC (или аналогичных) также считается ошибочным по некоторым причинам, хотя это кажется немного неясным (например, см. Мой вопрос и некоторые ссылки по этой теме здесь: что именно такое «пошаговый выбор модели»? ).
Но допустим, вы выбрали один из этих двух методов, чтобы выбрать лучший набор предикторов в вашей модели.
Бернхем и Андерсон 2002 (Выбор модели и многомодельный вывод: практический информационно-теоретический подход, стр. 83) утверждают, что не следует смешивать выбор переменных на основе AIC с выбором на основе проверки гипотез : «Тесты нулевых гипотез и теоретико-информационные подходы должны не должны использоваться вместе; это очень разные парадигмы анализа ".
С другой стороны, Zuur et al. 2009 (Модели со смешанными эффектами и расширениями в экологии с R, стр. 541), по-видимому, выступают за использование AIC, чтобы сначала найти оптимальную модель, а затем выполнить «точную настройку» с помощью проверки гипотез : «Недостатком является то, что AIC может быть консервативным и вам, возможно, придется применить некоторую тонкую настройку (с использованием процедур проверки гипотез из первого подхода), когда AIC выберет оптимальную модель ».
Вы можете видеть, как это оставляет читателя обеих книг в замешательстве относительно того, какой подход следовать.
1) Это просто разные «лагеря» статистического мышления и предмет разногласий среди статистиков? Является ли один из этих подходов просто «устаревшим» сейчас, но был ли он уместным на момент написания? Или это просто неправильно с самого начала?
2) Будет ли сценарий, при котором этот подход будет уместным? Например, я родом из биологического прошлого, где я часто пытаюсь определить, какие переменные влияют или влияют на мой ответ, если таковые имеются. У меня часто есть несколько возможных объясняющих переменных, и я пытаюсь найти, которые являются «важными» (в относительном выражении). Кроме того, обратите внимание, что набор переменных-предикторов-кандидатов уже сокращен до тех, которые, как считается, имеют некоторую биологическую значимость, но это может по-прежнему включать 5-20 кандидатов-предикторов.