Для усреднения модели GLM, мы усредняем прогнозы по ссылке или шкале ответов?

Вычислить усредненные по модели прогнозы по шкале отклика GLM, которая является «правильной» и почему?

Вычислить усредненный прогноз по шкале канала и затем преобразовать обратно в шкалу ответов, или
Обратно преобразовать прогнозы в шкалу ответов, а затем вычислить среднее по модели

Прогнозы близки, но не равны, если модель является GLM. Различные пакеты R предоставляют опции для обоих (с разными значениями по умолчанию). Несколько коллег громогласно утверждали, что № 1 не так, потому что «все делают № 2». Моя интуиция говорит, что № 1 является «правильным», поскольку он сохраняет линейную математику линейной (№ 2 усредняет вещи, которые не находятся в линейном масштабе). Простое моделирование показывает, что # 2 имеет (очень!) Немного меньшую MSE, чем # 1. Если № 2 правильно, в чем причина? И, если № 2 верен, почему моя причина (пусть линейная математика линейная) плохая?

Редактировать 1: Вычисление предельных средних по уровням другого фактора в GLM является проблемой, аналогичной вопросу, который я задаю выше. Рассел Лент вычисляет предельные значения для моделей GLM, используя «сроки» (его слова) из # 1 (в пакете emmeans), и его аргумент похож на мою интуицию.

Редактировать 2: Я использую усреднение модели для обозначения альтернативы выбору модели, где прогноз (или коэффициент) оценивается как средневзвешенное значение по всем или подмножеству «наилучших» вложенных моделей (см. Ссылки и пакеты R ниже) ,

Для заданных вложенных моделей, где - это линейное предсказание (в пространстве ссылок) для отдельного для модели , а - это вес для модели , усредненное по модели предсказание с использованием # 1 выше (среднее по ссылке масштабирование, а затем обратное преобразование в масштаб ответа): $M$ $\eta_i^m$ $i$ $m$ $w_m$ $m$

{\hat{Y}}_{i} = g^{- 1} (\sum_{m = 1}^{M} w_{m} η_{i}^{m})

$\hat{Y}_i = g^{-1}\Big(\sum_{m=1}^M{w_m \eta_i^m}\Big)$

и усредненное по модели предсказание с использованием # 2 выше (обратное преобразование всех предсказаний и затем усреднение по шкале отклика): $M$

{\hat{Y}}_{i} = \sum_{m = 1}^{M} w_{m} g^{- 1} (η_{i}^{m})

$\hat{Y}_i = \sum_{m=1}^M{w_m g^{-1}(\eta_i^m})$

Некоторые байесовские и частотные методы усреднения моделей:

Hoeting, JA, Madigan, D., Raftery, AE и Volinsky, CT, 1999. Усреднение байесовской модели: учебное пособие. Статистические науки, с.382-401.
Бернхем К.П., Андерсон Д.Р., 2003. Выбор модели и многомодельный вывод: практический теоретико-информационный подход. Springer Science & Business Media.
Хансен Б.Е., 2007. Усреднение модели наименьших квадратов. Econometrica, 75 (4), с.1175-1189.
Claeskens, G. and Hjort, NL, 2008. Выбор модели и усреднение модели. Кембриджские Книги.

Пакеты R включают BMA , MuMIn , BAS и AICcmodavg . (Примечание: это не вопрос мудрости усреднения моделей в более общем плане.)

generalized-linear-model model-averaging

— JWalker
источник

Я подозреваю, что причина того, что ваш вопрос не получил ответов, в том, что другие читатели, такие как я, не понимают ваш вопрос. Что вы имеете в виду именно под "усреднением по моделям"? Пожалуйста, опишите контекст подробно, чтобы мы понимали, какую проблему вы пытаетесь решить. Насколько я вижу, пакет emmeans не усредняет прогнозы из разных моделей.

— Гордон Смит

Спасибо за вопрос, и я вижу, что добавление записки Рассела Лента спутает мой вопрос. Я попытался уточнить это выше. Пакет emmeans будет вычислять предельные средние и SE по уровням другого фактора, и эти статистические данные вычисляются по шкале ссылок и затем преобразуются обратно. Смотрите раздел «Модель - наш лучший гид» .

— JWalker

Я действительно был бы заинтересован в любых ответах на этот вопрос. Между тем, комментарий. Этот результат MSE вычисляется по шкале обратного преобразования. Могу поспорить, что при тех же результатах моделирования MSE при вычислении по шкале связи будет меньше с # 1, чем с # 2. Причина в том, что среднее значение выборки является наименьшим квадратом оценки среднего числа населения, даже в неправильном масштабе.

— Расс Лент

Оптимальный способ объединения оценок или предикторов зависит от функции потерь, которую вы пытаетесь минимизировать (или от функции полезности, которую вы пытаетесь максимизировать).

Вообще говоря, если функция потерь измеряет ошибки прогнозирования в шкале ответов, то усреднение предикторов в шкале ответов корректно. Если, например, вы стремитесь минимизировать ожидаемую квадратичную ошибку прогнозирования по шкале ответов, то средний предиктор будет оптимальным и, в зависимости от допущений вашей модели, может быть эквивалентен усреднению прогнозов по шкале ответов.

Обратите внимание, что усреднение по линейной шкале предикторов может работать очень плохо для дискретных моделей. Предположим, что вы используете логистическую регрессию для прогнозирования вероятности двоичной переменной ответа. Если какая-либо из моделей дает оценочную вероятность нуля, то линейный предиктор для этой модели будет минус бесконечность. Взятие среднего значения бесконечности с любым числом конечных значений все равно будет бесконечным.

Вы обращались к ссылкам, которые вы перечислили? Я уверен, что Hoeting и др. (1999), например, обсуждают функции потерь, хотя, возможно, не очень подробно.

— Гордон Смит
источник

Отлично. Спасибо за этот ответ (я приветствую других!). Я предполагаю, что «тогда усредняющие предикторы, вероятно, будут оптимальными или близкими к нему» - это усредняющие предикторы по шкале ответов. Логистическая заметка особенно полезна.

— JWalker

@rvl Что касается линейности функции потерь, я думал о функции влияния потерь. Я согласен, что это немного загадочно, поэтому я отредактировал свои комментарии. Я должен не согласиться с вашими другими замечаниями. GLM оцениваются по ML, а не по квадрату потери ошибок. Несмотря на название, алгоритм IRLS, который популярен для GLM, не сводит к минимуму сумму квадратов, а рабочая переменная IRLS включает стандартизированные остатки в шкале ответов, а не в шкале ссылок. В любом случае, оценка и прогнозирование не одинаковы и не должны иметь одинаковые функции потерь.

— Гордон Смит

@rvl Точные нулевые значения часто встречаются в логистической регрессии и обсуждались на этом форуме несколько раз.

— Гордон Смит

@rvl Потеря не оценивается по шкале ссылок. Это обсуждение не для меня, чтобы предложить вам учебник по GLM - вместо этого я отсылаю вас к моей книге по GLM, которую Springer опубликует примерно через месяц. Также это обсуждение не является подходящим местом для того, чтобы предложить альтернативный ответ на исходный вопрос. Напишите правильный ответ, если вы хотите это сделать.

— Гордон Смит

Вот ссылка на нашу книгу на GLMS: doi.org/10.1007/978-1-4419-0118-7

— Гордон Смит