Полезны ли смешанные модели в качестве прогностических моделей?


24

Я немного озадачен преимуществами смешанных моделей в отношении прогнозного моделирования. Поскольку прогнозирующие модели обычно предназначены для прогнозирования значений ранее неизвестных наблюдений, для меня кажется очевидным, что единственная возможность, с которой смешанная модель может быть полезной, заключается в ее способности предоставлять прогнозы на уровне популяции (то есть без добавления каких-либо случайных эффектов). Однако проблема заключается в том, что до сих пор в моем опыте прогнозы на уровне популяции, основанные на смешанных моделях, были значительно хуже, чем прогнозы, основанные на стандартных регрессионных моделях только с фиксированными эффектами.

Так в чем же смысл смешанных моделей в отношении проблем прогнозирования?

РЕДАКТИРОВАТЬ. Проблема заключается в следующем: я установил смешанную модель (с фиксированными и случайными эффектами) и стандартную линейную модель только с фиксированными эффектами. Когда я делаю перекрестную проверку, я получаю следующую иерархию точности прогнозирования: 1) смешанные модели при прогнозировании с использованием фиксированных и случайных эффектов (но это работает, конечно, только для наблюдений с известными уровнями переменных случайных эффектов, поэтому этот прогнозный подход, похоже, не быть подходящим для реальных предсказательных заявлений!); 2) стандартная линейная модель; 3) смешанная модель при использовании прогнозов на уровне популяции (например, с выбрасыванием случайных эффектов). Таким образом, единственная разница между стандартной линейной моделью и смешанной моделью заключается в несколько различном значении коэффициентов из-за разных методов оценки (то есть в обеих моделях одинаковые эффекты / предикторы, но они имеют разные связанные коэффициенты).

Таким образом, моя путаница сводится к вопросу, зачем мне когда-либо использовать смешанную модель в качестве прогнозирующей модели, поскольку использование смешанной модели для генерации прогнозов на уровне населения, похоже, является худшей стратегией по сравнению со стандартной линейной моделью.


Как вы делаете свои прогнозы? Вы не используете случайные эффекты или вы фиксируете свои случайные эффекты по средствам? (Т.е. вы выбрасываете случайные эффекты во время предсказания?)
Уэйн

Насколько я правильно понимаю случайные эффекты, фиксировать случайные эффекты в их средстве - это то же самое, что и выбрасывать их, поскольку случайные эффекты (по крайней мере, в параметризации, которую я использую) генерируются из нормального распределения средних значений 0 и сигма дисперсии. Но в любом случае, поскольку я не знаю значений переменных случайных эффектов для новых наблюдений, я, конечно, не использую случайные эффекты во время предсказания, только фиксированные эффекты.
Шталь

1
Возможно, вы захотите просмотреть эту статью «Об эффективности классификаторов логистической регрессии на основе смешанных моделей для продольных данных», search.proquest.com/openview/3578d64c85f3c1c52414924d044bca2c/…
Джон

1
Sztal: Вы правы, конечно. Я пытался быстро ответить и сказал что-то бессмысленное. Я нашел статью ( gllamm.org/JRSSApredict_09.pdf ), в которой рассматривается предсказание в Разделе 7. Я должен сказать, что не могу обобщить его до комментария, что указывает на то, что я его не совсем понимаю.
Уэйн

Последний вопрос: когда вы сравниваете только фиксированные эффекты и смешанные, вы используете одинаковые фиксированные эффекты в каждом, добавляя только что-то вроде перехвата на индивидуальном уровне? Такое ощущение, что в этой ситуации вы должны иметь очень похожие эффекты, за исключением лучшего понимания вашего истинного предиктивного интервала.
Уэйн

Ответы:


17

Это зависит от характера данных, но в целом я ожидаю, что смешанная модель превзойдет модели с фиксированным эффектом.

Давайте рассмотрим пример: моделирование взаимосвязи между солнечным светом и высотой стеблей пшеницы. У нас есть ряд измерений отдельных стеблей, но многие из стеблей измеряются в одних и тех же местах (которые похожи в почве, воде и других вещах, которые могут повлиять на высоту). Вот несколько возможных моделей:

1) высота ~ солнечный свет

2) высота ~ солнечный свет + сайт

3) высота ~ солнечный свет + (1 | сайт)

Мы хотим использовать эти модели для прогнозирования высоты новых стеблей пшеницы, учитывая некоторую оценку солнечного света, который они испытают. Я собираюсь проигнорировать штраф за параметр, который вы заплатили бы за наличие множества сайтов в модели только с фиксированными эффектами, и просто рассмотреть относительную прогностическую силу моделей.

Наиболее актуальный вопрос здесь заключается в том, являются ли эти новые данные, которые вы пытаетесь предсказать, с одного из измеренных вами сайтов; Вы говорите, что это редко в реальном мире, но это случается.

А) Новые данные с сайта, который вы измерили

Если это так, модели № 2 и № 3 будут превосходить № 1. Они оба используют более релевантную информацию (средний эффект сайта), чтобы делать прогнозы.

Б) Новые данные с неизмеренного сайта

Я все еще ожидал бы, что модель # 3 превзойдет # 1 и # 2, по следующим причинам.

(i) Модель № 3 против № 1:

Модель № 1 будет давать оценки, которые смещены в пользу перепредставленных сайтов. Если у вас одинаковое количество баллов на каждом сайте и достаточно репрезентативная выборка сайтов, вы должны получить схожие результаты на обоих сайтах.

(ii) Модель № 3 против № 2:

Почему модель № 3 будет лучше этой модели № 2 в этом случае? Поскольку случайные эффекты используют преимущество сжатия - эффекты сайта будут «уменьшены» до нуля. Другими словами, вы будете стремиться найти менее экстремальные значения для эффектов сайта, когда он указан как случайный эффект, чем когда он указан как фиксированный эффект. Это полезно и улучшает ваши способности к прогнозированию, когда можно считать, что совокупность означает, что она взята из нормального распределения (см. «Парадокс Штейна в статистике» ). Если от совокупности средств не ожидается, что они будут следовать нормальному распределению, это может быть проблемой, но обычно это очень разумное предположение, и метод устойчив к небольшим отклонениям.

[Примечание: по умолчанию при подгонке модели № 2 большинство программ используют один из сайтов в качестве эталона и оценивают коэффициенты для других сайтов, которые представляют их отклонение от эталона. Таким образом, может показаться, что нет способа рассчитать общий «эффект населения». Но вы можете рассчитать это путем усреднения по прогнозам для всех отдельных сайтов или, проще, изменив кодировку модели так, чтобы коэффициенты рассчитывались для каждого сайта.]


Спасибо за ответ. Я скорее убежден. К сожалению, я не помню сейчас точный случай, который мотивировал мой вопрос, но я думаю, что низкая производительность смешанной модели в моем случае могла быть вызвана довольно нерегулярным распределением предикторов, которые я использовал в модели. Я скоро приму ответ, но так как вопрос привлек немного внимания, я уделю еще несколько дней, чтобы кто-то, возможно, смог дать более строгое объяснение (возможно, с некоторыми примерами).
Штал

1
Хорошо сказано. Следует отметить, что иерархическое прогнозирование специфических для объекта эффектов, которые вызывают случайные эффекты, для прогнозирования любого случайного перехвата или случайного наклона, эмпирически оцененного из модели, должно быть эквивалентно простому набору отдельных уровней и фиксированных эффектов для конкретного сайта. в модели.
AdamO

8

Вслед за превосходным ответом mkt: Исходя из моего личного опыта, разработка прогностических моделей в области медицинского страхования, включение случайных эффектов в прогностические модели (включая модели машинного обучения) имеет ряд преимуществ.

Меня часто просят построить модели, прогнозирующие будущие исходы претензий (например, будущие расходы на здравоохранение, продолжительность пребывания и т. Д.) На основе исторических данных о претензиях отдельных лиц. Часто на человека приходится несколько претензий с соответствующими результатами. Игнорирование того факта, что многие претензии разделяются одним и тем же пациентом, приведет к выбросу ценной информации в прогностическую модель.

Одним из решений будет создание переменных индикатора фиксированного эффекта для каждого элемента в наборе данных и использование штрафованной регрессии для сокращения каждого из фиксированных эффектов на уровне элемента в отдельности. Однако, если в ваших данных присутствуют тысячи или миллионы членов, более эффективное решение как с вычислительной, так и с прогностической точек зрения может состоять в представлении нескольких фиксированных эффектов на уровне элемента в виде одного члена случайного эффекта с нормальным распределением.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.