Обобщенные линейные смешанные модели: выбор модели


10

Этот вопрос / тема возникла в дискуссии с коллегой, и я искал несколько мнений по этому поводу:

Я моделирую некоторые данные, используя логистическую регрессию со случайными эффектами, точнее - логистическую регрессию со случайным перехватом. Для фиксированных эффектов у меня есть 9 переменных, которые представляют интерес и учитываются. Я хотел бы сделать выбор модели, чтобы найти значимые переменные и дать «лучшую» модель (только основные эффекты).

Моей первой идеей было использование AIC для сравнения разных моделей, но с 9 переменными мне было не очень интересно сравнивать 2 ^ 9 = 512 разных моделей (ключевое слово: выемка данных).

Я обсуждал это с коллегой, и он сказал мне, что он помнил, как читал об использовании пошагового (или прямого) выбора модели с GLMM. Но вместо использования значения p (например, на основе теста отношения правдоподобия для GLMM) следует использовать AIC в качестве критерия входа / выхода.

Мне эта идея показалась мне очень интересной, но я не нашел никаких ссылок, в которых это обсуждалось, и мой коллега не помнил, где он ее читал. Многие книги предлагают использовать AIC для сравнения моделей, но я не нашел никаких обсуждений по поводу использования этого вместе с пошаговой или прямой процедурой выбора модели.

Итак, у меня есть два основных вопроса:

  1. Что-то не так с использованием AIC в пошаговой процедуре выбора модели в качестве критерия входа / выхода? Если да, что будет альтернативой?

  2. Есть ли у вас какие-либо ссылки, которые обсуждают вышеуказанную процедуру (также в качестве ссылки для окончательного отчета?

Лучший,

Эмилия


3
Пошаговый выбор модели требует столько же данных, сколько и выбор полного подмножества (фактически он пытается найти примерно то же решение за гораздо меньшее время). Выбор на основе AIC - это также дноуглубление данных.
Майкл М

Ответы:


8

Поэтапный выбор неверен в многоуровневых моделях по тем же причинам, что и в «обычной» регрессии: неверно: значения p будут слишком низкими, стандартные ошибки слишком малы, оценки параметров смещены от 0 и т. Д. Самое главное, это отрицает вас возможность думать.

9 IVs не так уж много. Почему вы выбрали эти 9? Конечно, у тебя была причина.

Первое, что нужно сделать, это посмотреть на множество графиков; какие из них точные, мало зависит от того, являются ли ваши данные продольными (в этом случае графики со временем по оси X часто бывают полезными) или кластерными. Но обязательно посмотрите на взаимоотношения между 9 IV и вашим DV (параллельные прямоугольные графики - одна простая возможность).

Идеальным было бы построить несколько моделей, основанных на содержательном смысле, и сравнить их, используя AIC, BIC или какую-либо другую меру. Но не удивляйтесь, если какая-то конкретная модель не выйдет столь же лучшей. Вы не говорите, в какой области вы работаете, но во многих (большинстве?) Областях природа сложна. Несколько моделей могут подходить примерно одинаково хорошо, а другая модель может лучше подходить для другого набора данных (даже если обе являются случайными выборками из одной и той же совокупности).

Что касается ссылок - есть много хороших книг по нелинейным смешанным моделям. Какой из них лучше для вас, зависит от того, в какой области вы находитесь; б) какова природа данных; в) какое программное обеспечение вы используете.

Отвечая на ваш комментарий

  1. Если бы все 9 переменных были важны с научной точки зрения, я бы, по крайней мере, решил бы включить их все. Если переменная, которую все считают важной, приводит к небольшому эффекту, это интересно.

  2. Конечно, выведите все ваши переменные во времени и различными способами.

  3. Для общих вопросов о продольных многоуровневых моделях мне нравятся Хедекер и Гиббонс ; для нелинейных продольных моделей в SAS мне нравятся Molenberghs и Verbeke . Сама документация SAS (для PROC GLIMMIX) также предоставляет руководство.


В этом исследовании субъекты подвергаются воздействию различных комбинаций лекарств и упражнений с течением времени, и интересным результатом является наличие определенного респираторного состояния (да / нет). Пациенты измеряются повторно каждые 2 недели в течение 6 месяцев. Что касается программного обеспечения, я использую SAS и R. 9 IV, которые были выбраны исследователем из-за их научной значимости.
Эмилия

Проверка данных так же плоха, если не хуже, чем использование алгоритмического выбора модели. Причина в том, что выбор алгоритмической модели хорошо понятен и потенциально может быть скорректирован; просмотр данных и использование субъективных суждений - это процесс, который нельзя воспроизвести или скорректировать. В любом случае, я бы избегал выбора модели, потому что выбор модели лишает законной силы логический вывод. Поскольку здесь только 9 ковариат, я думаю, что лучший совет - работать с полной моделью или с моделью, выбранной на основе одного вещества.
user3903581

3

Выбор модели может быть лучше выполнен с использованием методов усадки, таких как LASSO. Пошаговые методы слишком либеральны. Обоснование можно найти на веб-странице Тибширани. Если вы используете R, то существует пакет, glmmLassoкоторый позволяет выбирать модели в обобщенных линейных моделях со смешанными эффектами, используя метод усадки LASSO.


1

Хорошим эталоном для смешанного выбора моделей на основе AIC в R (также хорошо подходит для манекенов) будет Zuur_2009_Mixed_Effect_Models_and_Extensions_in_Ecology_with_R,

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.