Ответы:
А.Дж. Добсон указала в своей книге следующие вещи :
Линейная регрессия предполагает, что переменная отклика нормально распределена. Обобщенные линейные модели могут иметь переменные отклика с распределениями, отличными от нормального распределения - они могут быть даже категориальными, а не непрерывными. Таким образом, они не могут находиться в диапазоне от до + ∞ .
Отношение между ответом и объясняющими переменными не обязательно должно быть простой линейной формы.
Вот почему нам нужна функция связи как компонент обобщенной линейной модели. Он связывает среднее значение зависимой переменной , которое равно E ( Y i ) = μ i, с линейным членом x T i β таким образом, что диапазон нелинейно преобразованного среднего g ( μ i ) находится в диапазоне от - ∞ до + ∞ . Таким образом, вы можете фактически сформировать линейное уравнение g ( μ i ) = x T i β и использовать метод наименьших квадратов с повторным взвешиванием для оценки максимального правдоподобия параметров модели.
Это может помочь вам прочитать мой ответ здесь: Разница между логит-моделями и пробит-моделями , в которых достаточно подробно рассматриваются ссылки GLiM.
@BlainWaan и Wikipedia ясно описывают основной способ объяснения этой проблемы: фактический параметр (например, для биномиального ответа - т. е. логистической регрессии) не может варьироваться от отрицательной бесконечности до положительной бесконечности, но ваш прогнозируемый параметр будет. Вторая важная причина заключается в том, что без надлежащим образом указанной связи отклонения ваших остатков не будут постоянными (требуемое допущение для вывода с помощью оценки наименьших квадратов) или будут обрабатываться правильно.
Еще один способ решения этой проблемы заключается в том, что использование идентификационной ссылки (это еще один способ сказать / подумать о том, чтобы «не использовать» функцию ссылки) означает, что вы неправильно думаете о своей ситуации, что неизбежно искажает картину ваша ситуация, которую вы выводите из своего анализа. Например, если только истинные вероятности, которые вы пытаетесь смоделировать (опять-таки для ситуаций логистической регрессии), существуют только в середине диапазона (где они довольно линейны), и диапазон вы изучаете сосредоточено на точке, где ваши беты будут предвзятыми и ваши предсказанные Это будет далеко от истинных ценностей. Кроме того, ваши выводы будут искажены (например, частота ошибок типа I не будет равна).