Назначение функции связи в обобщенной линейной модели


35

Какова цель функции связи как компонента обобщенной линейной модели? Зачем нам это нужно?

Википедия утверждает:

Может быть удобно сопоставить область функции связи с диапазоном среднего значения функции распределения

В чем преимущество этого?

Ответы:


37

А.Дж. Добсон указала в своей книге следующие вещи :

  1. Линейная регрессия предполагает, что переменная отклика нормально распределена. Обобщенные линейные модели могут иметь переменные отклика с распределениями, отличными от нормального распределения - они могут быть даже категориальными, а не непрерывными. Таким образом, они не могут находиться в диапазоне от до + .+

  2. Отношение между ответом и объясняющими переменными не обязательно должно быть простой линейной формы.

Вот почему нам нужна функция связи как компонент обобщенной линейной модели. Он связывает среднее значение зависимой переменной , которое равно E ( Y i ) = μ i, с линейным членом x T i β таким образом, что диапазон нелинейно преобразованного среднего g ( μ i ) находится в диапазоне от - до + . Таким образом, вы можете фактически сформировать линейное уравнение g ( μ i ) = x T i βYiE(Yi)=μixiTβg(μi)+g(μi)xiTβ и использовать метод наименьших квадратов с повторным взвешиванием для оценки максимального правдоподобия параметров модели.


18

Это может помочь вам прочитать мой ответ здесь: Разница между логит-моделями и пробит-моделями , в которых достаточно подробно рассматриваются ссылки GLiM.

@BlainWaan и Wikipedia ясно описывают основной способ объяснения этой проблемы: фактический параметр (например, пдля биномиального ответа - т. е. логистической регрессии) не может варьироваться от отрицательной бесконечности до положительной бесконечности, но ваш прогнозируемый параметр будет. Вторая важная причина заключается в том, что без надлежащим образом указанной связи отклонения ваших остатков не будут постоянными (требуемое допущение для вывода с помощью оценки наименьших квадратов) или будут обрабатываться правильно.

Еще один способ решения этой проблемы заключается в том, что использование идентификационной ссылки (это еще один способ сказать / подумать о том, чтобы «не использовать» функцию ссылки) означает, что вы неправильно думаете о своей ситуации, что неизбежно искажает картину ваша ситуация, которую вы выводите из своего анализа. Например, если только истинные вероятности, которые вы пытаетесь смоделировать (опять-таки для ситуаций логистической регрессии), существуют только в середине диапазона (где они довольно линейны), и диапазонИкс вы изучаете сосредоточено на точке, где пзнак равно0,5ваши беты будут предвзятыми и ваши предсказанные п^ИксяЭто будет далеко от истинных ценностей. Кроме того, ваши выводы будут искажены (например, частота ошибок типа I не будет равнаα).


Есть ли функция ссылки сделать остаточное распределение нормально ?
ABC

@ABC, нет, функция link просто связывает структурную часть модели с (преобразованием) прогнозируемого параметра. В GLiM также необходимо указать распределение ответов и дисперсию.
gung - Восстановить Монику
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.