Линейная модель с лог-преобразованным откликом против обобщенной линейной модели с лог-связью


46

В этой статье под названием «ВЫБОР СРЕДИ ОБОБЩЕННЫХ ЛИНЕЙНЫХ МОДЕЛЕЙ, ПРИМЕНЯЕМЫХ К МЕДИЦИНСКИМ ДАННЫМ» авторы пишут:

В обобщенной линейной модели среднее значение преобразуется функцией связи вместо преобразования самого отклика. Два метода преобразования могут привести к совершенно разным результатам; например, среднее значение логарифмически преобразованных ответов не совпадает с логарифмом среднего ответа . В целом, первое не может быть легко преобразовано в средний ответ. Таким образом, преобразование среднего значения часто позволяет легче интерпретировать результаты, особенно в том смысле, что средние параметры остаются в том же масштабе, что и измеренные отклики.

Похоже, что они советуют подгонять обобщенную линейную модель (GLM) с логарифмической связью вместо линейной модели (LM) с лог-преобразованным откликом. Я не понимаю преимуществ этого подхода, и он кажется мне довольно необычным.

Моя переменная ответа выглядит нормально распределенной по журналу. Я получаю схожие результаты с точки зрения коэффициентов и их стандартных ошибок при любом подходе.

Тем не менее, мне интересно: если переменная имеет лог-нормальное распределение, не является ли среднее значение лог-преобразованной переменной предпочтительным по сравнению с логарифмом средней нетрансформированной переменной , так как среднее является естественной суммой нормального распределения и журнала -трансформированная переменная нормально распределена, тогда как сама переменная нет?


3
Я согласен с вашей подсказкой, если у нас есть нормально распределенная логарифмическая переменная. Тем не менее, среднее значение необходимо «обратно преобразовать», чтобы получить легко понятную статистику, основанную на исходной шкале данных. Это может объяснить вывод статьи. Кроме того, после преобразования журнала мы можем не получить нормально распределенную переменную, и в этом случае я не знаю, какой подход будет лучше.
Суфаном

Ответы:


46

Хотя может показаться, что среднее значение лог-преобразованных переменных является предпочтительным (поскольку именно так обычно логарифмируется параметризация), с практической точки зрения логарифм среднего значения обычно гораздо более полезен.

Это особенно верно, когда ваша модель не совсем верна, и, если процитировать слова Джорджа Бокса: «Все модели неверны, некоторые полезны»

Предположим, что какое-то количество нормально распределено, скажем, артериальное давление (я не медик!), И у нас две популяции, мужчины и женщины. Можно предположить, что среднее артериальное давление у женщин выше, чем у мужчин. Это точно соответствует вопросу о том, является ли логарифм среднего артериального давления выше у женщин, чем у мужчин. Это не то же самое, что спрашивать, является ли среднее значение логарифмического давления выше у женщин, чем у мужчин .

μln

μ=eμln+σln2/2

σ2=(eσln21)e2μln+σln2

Очевидно, что это делает алгебру ужасно сложной, но она все еще работает и означает то же самое.

ln(μ)σln2μln

μln

До сих пор мы предполагали, что кровяное давление обычно является нормальным. Если истинные распределения не совсем логарифмически нормальны, то преобразование данных (как правило) сделает вещи еще хуже, чем выше - так как мы не будем точно знать, что на самом деле означает наш «средний» параметр. Т.е. мы не будем знать, что эти два уравнения для среднего и дисперсии, которые я дал выше, верны. Использование их для преобразования туда-сюда приведет к дополнительным ошибкам.


Я нашел это очень полезным: christoph-scherber.de/content/PDF%20Files/…
Адитья,

2
Короне, я выделил два важных предложения в вашем ответе. Надеюсь, ты не против. Пожалуйста, откат, если вы не согласны.
Стефан

17

Вот мои два цента из курса углубленного анализа данных, который я прошел, изучая биостатистику (хотя у меня нет никаких ссылок, кроме заметок моего профессора):

Это сводится к тому, нужно ли вам учитывать линейность и гетероскедастичность (неравные отклонения) в ваших данных, или просто линейность.

Она отмечает, что преобразование данных влияет на предположения о линейности и дисперсии модели. Например, если у ваших остатков есть проблемы с обоими, вы можете рассмотреть преобразование данных, которое потенциально может исправить оба. Преобразование преобразует ошибки и, следовательно, их дисперсию.

Напротив, использование функции связи влияет только на предположение о линейности, а не на дисперсию. Лог берется из среднего значения (ожидаемое значение), и, следовательно, дисперсия остатков не изменяется.

Таким образом, если у вас нет проблемы с непостоянной дисперсией, она предлагает использовать функцию связи вместо преобразования, потому что вы не хотите изменять свою дисперсию в этом случае (вы уже соответствуете предположению).


6
В то время как функция связи влияет только на среднее значение, функция связи является только одной частью GLM. Ваши комментарии работают для Gaussian GLM со ссылкой на журнал. Гамма - GLM с лог ссылки будут иметь одинаковую дисперсию-функцию предположение (дисперсии пропорциональна среднеквадратическая) в качестве прологарифмировав и подгонка постоянную дисперсию на этой логарифмической шкале. Другие семейства в рамках GLM будут иметь другие функции дисперсии. К сожалению, таблица на странице Википедии для GLM опускает функции дисперсии для семейств распределения, которые она дает.
Glen_b

2
Они упоминают некоторые примеры здесь, хотя. Вот эта гамма
Glen_b

-1

Если истинный ответ не является симметричным (не распределен как обычно), но логарифмически преобразованный отклик является нормальным, то используется линейная регрессия по трансформированному отклику, а коэффициент экспоненты дает нам соотношение геометрического среднего.

Если истинный ответ симметричен (распределен как обычно), но отношение между пояснительным (X) и ответом не является линейным, но ожидаемое значение логарифма является линейной функцией X, тогда используется GLM с логарифмической связью, а коэффициент экспоненты дает нам отношение среднего арифметического


Этот ответ не ясен. Вы имели в виду «переменная», а не «настоящая»?
Майкл Черник

Это фрагмент ответа. Вы должны прояснить, как это связано с вопросом и что ответ на вопрос на самом деле основан на этой части понимания.
ReneBt
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.