Когда использовать гамма GLM?

88

Гамма-распределение может принимать довольно широкий диапазон форм, и, учитывая связь между средним и дисперсией через два его параметра, оно кажется подходящим для работы с гетероскедастичностью в неотрицательных данных таким образом, что лог-преобразованный OLS может не обойтись без WLS или какой-либо гетероскедастичности, совместимой с оценкой VCV.

Я бы больше использовал его для рутинного моделирования неотрицательных данных, но я не знаю никого, кто бы его использовал, я не изучал его в формальной обстановке в классе, и литература, которую я читаю, никогда не использует ее. Всякий раз, когда я гуглю что-то вроде «практического использования гамма-ГЛМ», я советую использовать его для ожидания между пуассоновскими событиями. ХОРОШО. Но это кажется ограничительным и не может быть его единственным использованием.

Наивно, кажется, что гамма GLM является относительно легким предположением средством моделирования неотрицательных данных, учитывая гибкость гаммы. Конечно, вы должны проверить графики QQ и остаточные графики, как любая модель. Но есть ли какие-то серьезные недостатки, которые мне не хватает? Помимо общения с людьми, которые "просто запускают OLS"?

generalized-linear-model gamma-distribution

— generic_user
источник

57

Гамма имеет свойство, разделяемое логнормальным; а именно, когда параметр формы поддерживается постоянным, а параметр масштаба изменяется (как это обычно делается при использовании любой из моделей), дисперсия пропорциональна среднеквадратическому (постоянный коэффициент вариации).

Нечто приближенное к этому происходит довольно часто с финансовыми данными или даже со многими другими типами данных.

В результате он часто подходит для данных, которые являются непрерывными, положительными, смещенными вправо и где дисперсия почти постоянна в логарифмическом масштабе, хотя есть ряд других хорошо известных (и часто довольно легко доступных) вариантов с этими свойства.

Кроме того, обычно используется лог-линк с гамма-GLM (реже использовать натуральную ссылку относительно редко). Что немного отличает его от подгонки нормальной линейной модели к логам данных, так это то, что в логарифмическом масштабе гамма остается наклоненной в разной степени, в то время как нормаль (лог логнормального) симметрична. Это делает его (гамма) полезным в различных ситуациях.

Я видел практическое применение гамма-ГЛМ, обсуждаемое (с примерами реальных данных) в (вне пределов моей головы) « Де Йонг и Хеллер и Фриес», а также в многочисленных работах; Я также видел приложения в других областях. О, и если я правильно помню, Venables и MASS Рипли используют его для школьных прогулок (данные квин.; Edit: оказывается, это на самом деле в дополнениях статистики к MASS , см. Стр. 11, 14-я страница pdf, там есть ссылка на журнал, но есть небольшое смещение DV). Э-э, а МакКаллах и Нелдер сделали пример свертывания крови, хотя, возможно, это было естественным связующим звеном.

Тогда есть книга Faraway, где он сделал пример страхования автомобиля и пример данных о производстве полупроводников.

Есть некоторые преимущества и недостатки при выборе любого из двух вариантов. С этих дней оба легко приспосабливаются; Обычно это вопрос выбора наиболее подходящего.

Это далеко не единственный вариант; например, существуют также обратные гауссовы GLM, которые являются более косо / более тяжелыми (и даже более гетероскедастичными), чем гамма или логнормальные.

Что касается недостатков, то делать интервалы прогнозирования сложнее. Некоторые диагностические дисплеи труднее интерпретировать. Вычисление ожиданий по шкале линейного предиктора (обычно логарифмической шкалы) сложнее, чем для эквивалентной логнормальной модели. Тесты гипотез и интервалы, как правило, асимптотические. Это часто относительно незначительные проблемы.

Он имеет некоторые преимущества по сравнению с логнормальной регрессией логарифмических связей (взятие логов и подбор обычной модели линейной регрессии); во-первых, среднее предсказание легко.

— Glen_b
источник

3

Должно ли это быть "гамма" или "гамма"? Мы знаем, что это не имя для человека. Я видел строчные буквы "г" гораздо чаще. Очевидно, что распределение названо в честь функции, которая восходит к 18 веку.

— Ник Кокс

2

Запись - единственная причина, по которой я видел это использование. Как правило, в случае распределений верхний регистр повторяет фамилии, например, Пуассона или Гаусса, как вы знаете.

Γ

$\Gamma$

— Ник Кокс

@NickCox Я изменил это, как вы предлагаете, и я исправил "Inverse Gaussian", пока я был на нем.

— Glen_b

1

@Gleb_b: Вы все еще используете ссылку на журнал с обратной семьей Гаусса?

— Дмитрий Владимирович Мастеров

@ DimitriyV.Masterov Он меньше используется, поэтому его сложнее обобщать. Из того, что я видел, довольно часто используется лог-ссылка с обратным гауссовым, но в некоторых ситуациях могут подходить и другие ссылки, такие как обратная ссылка.

— Glen_b

28

Это хороший вопрос. На самом деле, почему люди не используют обобщенные линейные модели (GLM) больше, это тоже хороший вопрос.

Предупреждение: некоторые люди используют GLM для общей линейной модели, а не то, что здесь имеется в виду.

Это зависит от того, куда вы смотрите. Например, гамма-распределения были популярны в некоторых науках об окружающей среде в течение нескольких десятилетий, и поэтому моделирование с помощью переменных-предикторов также является естественным продолжением. Есть много примеров в гидрологии и геоморфологии, чтобы назвать некоторые области, в которых я отклонился.
Трудно точно определить, когда использовать его, кроме пустого ответа, когда он работает лучше всего. Учитывая искаженные положительные данные, я часто сталкиваюсь с тем, чтобы попробовать гамма- и логнормальные модели (в связи с журналом контекста GLM, нормальное или гауссовское семейство) и выбрать, какой из них лучше работает.
До недавнего времени гамма-моделирование оставалось довольно трудным делом, особенно по сравнению с, скажем, взятием журналов и применением линейных регрессий, без написания большого количества кода самостоятельно. Даже сейчас я предполагаю, что это не одинаково легко во всех основных статистических программных средах.
Объясняя, что используется, а что не используется, несмотря на достоинства и недостатки, я думаю, что вы всегда обращаете внимание именно на те факторы, которые вы идентифицируете: что преподается, что в литературе, которую люди читают, о чем люди слышат, говорили о работа и на конференциях. Итак, вам нужна некая любительская социология науки, чтобы объяснить. Большинство людей, кажется, следуют прямым и узким путям в своих областях. В общем, чем больше внутренняя литература в какой-либо области техники моделирования, тем менее склонные люди в этой области, кажется, пытаются что-то другое.

— Ник Кокс
источник

1

Как вы определяете, что работает лучше?

— Дмитрий Владимирович Мастеров

7

Я смотрю на вероятности, R-квадраты (несмотря на то, что говорят люди), доверительные интервалы вокруг оценок параметров, графики наблюдаемых и подогнанных значений, остаточные и подогнанные значения и т. Д. Если бы существовала наука, поддерживающая одну модель над другой, это тоже весило бы, но в Мой опыт науки не так хорошо сформирован. Как еще это можно сделать?

— Ник Кокс

@NickCox На что мы должны обращать внимание, когда наблюдаемый анализ сравнивается с подгонкой, остатки против подгонки и нормальный график qq? Я понимаю, что это может отличаться между моделями. Не могли бы вы привести пример гаммы, пуассона и отрицательного бинома? Спасибо

— татами

@tatami Это совершенно новый вопрос или даже больше, я думаю. Если вы спросите это, вы увидите, кто кусается. Я никогда не думал, что гамма-модель и негативная биномиальная модель являются конкурентами в любом проекте, но это может быть неудачей воображения или опыта.

— Ник Кокс

13

Гамма-регрессия находится в GLM, поэтому вы можете получить много полезных величин для диагностических целей, таких как отклонения от отклонения, рычаги, расстояние Кука и т. Д. Возможно, они не так хороши, как соответствующие величины для преобразованных в лог данных.

Одна вещь, которую избегает гамма-регрессия по сравнению с логнормальным, - это смещение трансформации. Неравенство Дженсена подразумевает, что прогнозы по логнормальной регрессии будут систематически смещаться, потому что он моделирует преобразованные данные, а не преобразованное ожидаемое значение.

Кроме того, гамма-регрессия (или другие модели для неотрицательных данных) может справиться с более широким массивом данных, чем логарифмический, из-за того, что он может иметь режим в 0, такой как у вас с экспоненциальным распределением, которое находится в гамме семья, что невозможно для логнормальных.

Я читал предложения о том, что использование вероятности Пуассона в качестве квази-вероятности более устойчиво. Они сопряжены друг с другом. Квази-Пуассон также имеет существенное преимущество, заключающееся в возможности справиться с точными значениями 0, которые беспокоят как гамму, так и, особенно, логнормальную.

— Джей Веркуилен
источник

11

На мой взгляд, предполагается, что ошибки лежат в семействе гамма-распределений, с одинаковыми формами и масштабами, меняющимися в соответствии с соответствующей формулой.

Но сложно сделать модельный диагноз. Обратите внимание, что простой график QQ здесь не подходит, потому что он примерно одинакового распределения, в то время как наш - это семейство распределений с разными дисперсиями.

Наивно, график остатков можно использовать, чтобы увидеть, что они имеют разные масштабы, но одинаковую форму, обычно с длинными хвостами.

По моему опыту, гамма GLM может быть испытан для некоторых проблем с длинным хвостом, и он широко используется в секторах страхования и окружающей среды, и т. Д. Но предположения сложно проверить, и модель обычно не работает нормально, поэтому разные документы утверждают, что используют другие семейные дистрибутивы с той же проблемой, такие как обратный гауссов и т. д. На практике кажется, что такой выбор зависит от экспертного суждения с промышленным опытом. Это ограничивает использование гаммы GLM.

— Винсент
источник