В линейной регрессии, когда уместно использовать лог независимой переменной вместо фактических значений?


164

Я ищу лучшее распределение для рассматриваемой независимой переменной, или чтобы уменьшить влияние выбросов или что-то еще?


1
Вы спрашиваете о том, как уменьшить влияние выбросов или когда использовать журнал какой-либо переменной?
Бенджамин Баннье

23
Я думаю, что ОП говорит: «Я слышал о людях, использующих входные переменные журнала: зачем они это делают?»
Шейн

Почему просто журнал? Разве этот вопрос не должен применяться к какой-либо технике преобразования данных, которая может быть использована для минимизации остатков, связанных с mx + b?
AsymLabs

1
@AsymLabs - журнал может быть особенным в регрессии, поскольку это единственная функция, которая преобразует продукт в суммирование.
вероятностная

12
Предупреждение для читателей: вопрос касается преобразования IV, но некоторые ответы, кажется, говорят о причинах преобразования DV. Не заблуждайтесь, думая, что все это также причины для преобразования IV - некоторые могут быть, другие, конечно, нет. В частности, распределение IV, как правило, не имеет отношения к делу (на самом деле, предельное распределение DV тоже не имеет значения).
Glen_b

Ответы:


168

Я всегда стесняюсь заходить в цепочку с таким большим количеством превосходных ответов, как это, но мне кажется, что лишь немногие из ответов дают какую-либо причину предпочесть логарифм другим преобразованиям, которые «сдавливают» данные, такие как корень или ответ.

Прежде чем перейти к этому, давайте подведем итоги мудрости в существующих ответах в более общем виде. Некоторое нелинейное повторное выражение зависимой переменной указывается, когда применимо любое из следующего:

  • Остатки имеют перекошенное распределение. Целью преобразования является получение остатков, которые приблизительно симметрично распределены (конечно, около нуля).

  • Разброс остатков систематически изменяется со значениями зависимой переменной («гетероскедастичность»). Цель трансформации состоит в том, чтобы устранить это систематическое изменение в распространении, достигнув приблизительной «гомоскедастичности».

  • Чтобы линеаризовать отношения.

  • Когда научная теория указывает. Например, химия часто предлагает выражать концентрации в виде логарифмов (давая активность или даже общеизвестный pH).

  • Когда более туманная статистическая теория предлагает, остатки отражают «случайные ошибки», которые не накапливаются аддитивно.

  • Упростить модель. Например, иногда логарифм может упростить количество и сложность терминов «взаимодействие».

(Эти признаки могут противоречить друг другу; в таких случаях требуется суждение.)

Итак, когда конкретно указывается логарифм вместо какого-либо другого преобразования?

  • Остатки имеют «сильно» положительно перекошенное распределение. В своей книге об EDA Джон Тьюки предоставляет количественные способы оценки трансформации (в пределах семейства Бокса-Кокса, или силовых трансформаций) на основе ранговых статистик невязок. Это действительно сводится к тому факту, что если взятие логарифма симметрирует остатки, это, вероятно, была правильная форма повторного выражения; в противном случае необходимо другое выражение.

  • Когда SD остатков прямо пропорционально установленным значениям (а не какой-то степени установленных значений).

  • Когда отношения близки к экспоненциальным.

  • Когда считается, что остатки отражают мультипликативно накапливающиеся ошибки.

  • Вы действительно хотите модель, в которой предельные изменения в объясняющих переменных интерпретируются как мультипликативные (процентные) изменения в зависимой переменной.

И, наконец, некоторые не- причины использовать повторное выражение :

  • Создание выбросов не похоже на выбросы. Выделение - это элемент данных, который не вписывается в какое-то скупое, относительно простое описание данных. Изменение своего описания, чтобы улучшить внешний вид выбросов, обычно является неправильным изменением приоритетов: сначала получите научно обоснованное, статистически хорошее описание данных, а затем изучите любые выбросы. Не позволяйте случайным выбросам определять, как описать остальные данные!

  • Потому что программное обеспечение автоматически сделало это. (Достаточно сказано!)

  • Потому что все данные положительные. (Позитивность часто подразумевает положительную асимметрию, но это не обязательно. Более того, другие преобразования могут работать лучше. Например, корень часто лучше всего работает с подсчитанными данными.)

  • Чтобы «плохие» данные (возможно, низкого качества) выглядели хорошо.

  • Чтобы иметь возможность построить данные. (Если преобразование необходимо для построения графика данных, возможно, оно необходимо по одной или нескольким веским причинам, которые уже упоминались. Если единственная причина преобразования действительно заключается в построении графика, продолжайте и сделайте это - но только для построения графика данные. Оставьте данные без преобразования для анализа.)


1
А как насчет переменных, таких как плотность населения в регионе, соотношение детей и учителей для каждого школьного округа или количество убийств на 1000 в популяции? Я видел, как профессора берут журнал этих переменных. Мне не понятно почему. Например, уровень убийств уже не в процентах? В логе будет процент изменения курса? Почему журнал соотношение детей и учителей предпочтительнее? Следует ли принимать логарифмическое преобразование для каждой непрерывной переменной, когда нет основной теории об истинной функциональной форме?
user1690130

1
@JG Небольшие соотношения имеют тенденцию к искаженному распределению; логарифмы и корни, вероятно, сделают их более симметричными. Я не понимаю ваших вопросов, связанных с процентами: возможно, вы объединяете различные варианты использования процентов (один, чтобы выразить что-то как пропорцию целого, а другой, чтобы выразить относительное изменение)? Я не верю, что написал что-либо, отстаивающее, что логарифмы всегда применяются - это далеко не так! Так что я не понимаю основы вашего последнего вопроса.
whuber

2
«Когда считается, что остатки отражают мультипликативно накапливающиеся ошибки». У меня проблемы с интерпретацией этой фразы. Можно ли немного конкретизировать это с помощью другого предложения или двух? Какое накопление вы имеете в виду?
Хатшепсут

@ user1690130 для соотношений и плотностей, они, как правило, должны соответствовать распределению семейства Пуассона для отсчетов со смещением для экспозиции. Например, количество людей - это количество, а смещение - это площадь региона. См. Этот вопрос для хорошего объяснения - stats.stackexchange.com/questions/11182/…
Майкл Бартон

2
@Hatshepsut простым примером мультипликативно накапливающихся ошибок будет объем как зависимая переменная и ошибки в измерениях каждого линейного измерения.
abalter

73

Я всегда говорю студентам, что есть три причины для преобразования переменной, взяв натуральный логарифм. Причина регистрации переменной будет определять, хотите ли вы зарегистрировать независимую переменную (переменные), зависимую или обе. Чтобы было ясно, я говорю о натуральном логарифме.

Во-первых, для улучшения подгонки модели, как отмечали другие постеры. Например, если ваши остатки обычно не распределяются, то взятие логарифма перекошенной переменной может улучшить подгонку, изменив масштаб и сделав переменную более «нормально» распределенной. Например, доход усекается до нуля и часто демонстрирует положительный перекос. Если переменная имеет отрицательный перекос, вы можете сначала инвертировать переменную, прежде чем брать логарифм. Я имею в виду, в частности, шкалы Лайкерта, которые вводятся как непрерывные переменные. Хотя это обычно относится к зависимой переменной, иногда возникают проблемы с остатками (например, гетероскедастичностью), вызванными независимой переменной, которые иногда можно исправить, взяв логарифм этой переменной. Например, при запуске модели, объясняющей оценки лектора на наборе лектора и класса, переменная «размер класса» (т. Е. Количество студентов в лекции) имела выбросы, которые вызывали гетероскедастичность, потому что дисперсия в оценках лектора была меньше в большем когорты, чем меньшие когорты. Регистрация переменной студента может помочь, хотя в этом примере либо расчет робастных стандартных ошибок, либо использование взвешенных наименьших квадратов может облегчить интерпретацию.

Вторая причина регистрации одной или нескольких переменных в модели - для интерпретации. Я называю это удобной причиной. Если вы зарегистрируете как зависимую (Y), так и независимую (X) переменную (и), ваши коэффициенты регрессии ( ) будут эластичными, и интерпретация будет выглядеть следующим образом: увеличение X на 1% приведет к при прочих равных условиях % увеличение Y (в среднем). Регистрация только одной стороны регрессионного «уравнения» приведет к альтернативным интерпретациям, как показано ниже:β β

Y и X - увеличение X на одну единицу приведет к увеличению / уменьшению Yβ

Log Y и Log X - увеличение X на 1% приведет к увеличению / уменьшению Y на %β

Записать Y и X - увеличение X на одну единицу приведет к % увеличению / уменьшению Yβ100

Y и Log X - увеличение X на 1% приведет к увеличению / уменьшению Yβ/100

И, наконец, может быть теоретическая причина для этого. Например, некоторые модели, которые мы хотели бы оценить, являются мультипликативными и, следовательно, нелинейными. Взятие логарифмов позволяет оценивать эти модели с помощью линейной регрессии. Хорошие примеры этого включают производственную функцию Кобба-Дугласа в экономике и уравнение Минцера в образовании. Производственная функция Кобба-Дугласа объясняет, как входы преобразуются в выходы:

Y=ALαKβ

где

Y - общий объем производства или продукции некоторой организации, например, фирмы, фермы и т. Д.

A - общая производительность факторов (изменение объема производства, не вызванное входными данными, например, технологическим изменением или погодой)

L - трудозатраты

K - капитал

α & - выходная эластичность.β

Принятие логарифмов этого упрощает оценку функции с использованием линейной регрессии OLS как таковой:

log(Y)=log(A)+αlog(L)+βlog(K)

5
«Зарегистрируйте Y и X - увеличение X на одну единицу приведет к увеличению / уменьшению Y на 100%»: я думаю, что это применимо только в том случае, если β мало, так что exp (β) ≈ 1 + β
Ида

1
приятно и понятно спасибо! Один вопрос, как вы интерпретируете перехваты в случае Log Y и X? и вообще я обеспокоен тем, как сообщить о преобразованных
журналах

2
Я не люблю ответы, которые содержат примеры из Экономики [«У меня был я в« Производственной функции Кобба-Дугласа »»]… Но есть одна вещь: вы должны изменить член перехвата во втором уравнении на log (A ) чтобы это соответствовало первому уравнению.
Стив С

@ Ида действительно. Для заинтересованного читателя мой пост здесь описывает, почему для записанного «у» аналитик должен перевести как изменение процента. 100×(eβ1)
AdamO

21

Более подробно об отличном замечании Уубера о причинах предпочтения логарифма некоторым другим преобразованиям, таким как корень или обратное преобразование, но при этом особое внимание уделяется уникальной интерпретируемости коэффициентов регрессии, возникающих в результате лог-преобразования по сравнению с другими преобразованиями, см .:

Оливер Н. Кин. Преобразование журнала является особенным. Статистика в медицине 1995; 14 (8): 811-819. DOI: 10.1002 / sim.4780140810 . (PDF с сомнительной законностью доступен по адресу http://rds.epi-ucsf.org/ticr/syllabus/courses/25/2009/04/21/Lecture/readings/log.pdf ).

Если вы записываете независимую переменную x в основание b , вы можете интерпретировать коэффициент регрессии (и CI) как изменение зависимой переменной y на b - кратное увеличение x . (Журналы на базе 2, следовательно, часто полезны, поскольку они соответствуют изменению y на удвоение по x , или журналы на базе 10, если x изменяется во многих порядках, что реже). Другие преобразования, такие как квадратный корень, не имеют такой простой интерпретации.

Если вы зарегистрируете зависимую переменную y (не исходный вопрос, а вопрос, на который были адресованы несколько предыдущих ответов), то я нахожу идею Тима Коула о «симперсентах» привлекательной для представления результатов (я даже использовал их в статье один раз), хотя они, кажется, не завоевали популярность:

Тим Дж. Коул. Симперценты: симметричные процентные различия по шкале 100 log (e) упрощают представление преобразованных данных журнала. Статистика в медицине 2000; 19 (22): 3109-3125. DOI: 10.1002 / 1097-0258 (20001130) 19:22 <3109 :: AID-SIM558> 3.0.CO; 2-F [Я так рад, что Stat Med прекратил использовать SICI в качестве DOI ...]


1
Спасибо за ссылку и очень хорошие моменты. Интерес представляет вопрос, распространяется ли эта проблема на все преобразования, а не только на журналы. Для нас статистика / вероятность полезна в той мере, в которой она позволяет эффективно прогнозировать эффективность или использовать эффективные критерии / рекомендации. В течение многих лет мы использовали степенные преобразования (журналы под другим именем), полиномиальные преобразования и другие (даже кусочные преобразования), чтобы попытаться уменьшить невязки, сократить доверительные интервалы и в целом улучшить возможности прогнозирования на основе данного набора данных. Мы сейчас говорим, что это неправильно?
AsymLabs

1
@AsymLabs, насколько разделены две культуры Бреймана (грубо предсказатели и моделировщики)? Ср Две культуры - спорные.
Денис

15

Обычно берется журнал входной переменной для его масштабирования и изменения распределения (например, чтобы сделать его нормально распределенным). Это не может быть сделано вслепую, однако; Вы должны быть осторожны при любом масштабировании, чтобы гарантировать, что результаты по-прежнему интерпретируемы.

Это обсуждается в большинстве вводных статистических текстов. Вы также можете прочитать статью Эндрю Гельмана «Масштабирование регрессионных входов путем деления на два стандартных отклонения» для обсуждения этого вопроса. У него также есть очень хорошее обсуждение этого вопроса в начале «Анализ данных с использованием регрессии и многоуровневых / иерархических моделей» .

Взятие журнала не является подходящим методом для работы с плохими данными / выбросами.


12

Вы склонны вести журналы данных, когда есть проблема с остатками. Например, если вы вычерчиваете остатки по отношению к конкретному ковариате и наблюдаете растущий / убывающий паттерн (форма воронки), тогда преобразование может быть уместным. Неслучайные остатки обычно указывают на то, что допущения вашей модели неверны, то есть ненормальные данные.

Некоторые типы данных автоматически поддаются логарифмическим преобразованиям. Например, я обычно беру журналы, когда имею дело с концентрацией или возрастом.

Хотя преобразования в основном не используются для борьбы с выбросами, они помогают, поскольку взятие журналов уничтожает ваши данные.


1
Но, тем не менее, при использовании log изменяется модель - для линейной регрессии это y ~ a * x + b, для линейной регрессии по log это y ~ y0 * exp (x / x0).

1
Я согласен - журнал принимает изменения вашей модели. Но если вам нужно трансформировать ваши данные, это означает, что ваша модель не подходит в первую очередь.
csgillespie

2
@cgillespie: концентрации, да; но возраст? Это странно.
whuber

@whuber: Я полагаю, что это очень зависит от данных, но наборы данных, которые я использовал, вы увидите большую разницу между 10 и 18 годами, но небольшую разницу между 20 и 28 годами. Даже для маленьких детей разница между 0-1 годами не такая же, как разница между 1-2 годами.
csgillespie

1
@landroni Это вкратце. Я бы не сказал, что он плохой, за исключением того, что, скорее всего, «например» предназначался вместо «то есть». Я понимаю использование здесь «случайного» в смысле «независимый и одинаково распределенный», что действительно является наиболее общим предположением, предполагаемым МНК. В некоторых ситуациях люди дополнительно предполагают, что это общее базовое распределение является нормальным, но это не является строго необходимым на практике или в теории: все, что необходимо, - это чтобы выборочные распределения соответствующих статистических данных были близки к нормальным.
whuber

10

Преобразование независимой переменной - это один из случаев, когда можно быть эмпирическим, не искажая умозаключения, если честно оценивать количество степеней свободы в игре. Одним из способов является использование сплайнов регрессии для непрерывного известно, действует линейно. Для меня это не вопрос логарифма или оригинального масштаба; вопрос в том, какое преобразование соответствует данным. Нормальность остатков здесь не является критерием.XXX

Когда сильно искажен, куб необходимый для функций кубического сплайна, приводит к экстремальным значениям, которые иногда могут вызывать численные проблемы. Я решаю это путем подгонки кубической сплайн-функции к . R пакет рассматривает сокровенные переменный в качестве предсказателя, так черчения предсказанных значений будут на Оу. Пример:XXX3rmsXx

require(rms)
dd <- datadist(mydata); options(datadist='dd')
cr <- function(x) x ^ (1/3)
f <- ols(y ~ rcs(cr(X), 5), data=mydata)
ggplot(Predict(f))  # plot spline of cr(X) against X

Это соответствует ограниченному кубическому сплайну в с 5 узлами в местах квантилей по умолчанию. пригодный имеет 4 DF (один линейный член, 3 нелинейные члены). Полосы достоверности и тесты ассоциации соблюдают эти 4 df, полностью признавая «неопределенность преобразования».X3X


(+1) Если есть некоторая двусмысленность относительно функциональной формы , при условии, что имеется достаточно данных, аналитик должен использовать процедуры сглаживания, такие как сплайны или локальная регрессия, вместо того, чтобы «подбирать глаза наилучшим образом» ». Для вывода логарифмические и линейные тренды часто согласовывают направление и величину ассоциаций. Основным преимуществом лог-преобразования является интерпретация. E[Y|X]=f(X)
AdamO

9

Я хотел бы ответить на вопрос пользователя 1690130, который был оставлен в качестве комментария к первому ответу 26 октября 12 года, и гласит: «Как насчет переменных, таких как плотность населения в регионе или соотношение детей и учителей для каждого школьного округа или Число убийств на 1000 в популяции? Я видел, как профессора берут журнал этих переменных. Мне не понятно, почему. Например, процент убийств уже не процент? Журнал будет процентное изменение Оцените? Почему журнал соотношение детей и учителей предпочтительнее? "

Я пытался ответить на аналогичную проблему и хотел поделиться тем, что об этом говорит мой старый учебник по статистике ( Джеффри Вулдридж. 2006. Вводная эконометрика - современный подход, 4-е издание. Глава 6 Множественный регрессионный анализ: дополнительные вопросы. 191 ). Вулдридж советует:

Переменные, которые отображаются в процентной или процентной форме, такие как уровень безработицы, уровень участия в пенсионном плане, процент студентов, сдающих стандартизированный экзамен, и процент арестов по зарегистрированным преступлениям, могут отображаться в исходной или логарифмической форме. , хотя есть тенденция использовать их в формах уровня . Это связано с тем, что любые коэффициенты регрессии, включающие исходную переменную - будь то зависимая или независимая переменная - будут иметь интерпретацию изменения процентной точки. Если мы используем, скажем, log ( unem ) в регрессии, где unem - это процент безработных, мы должны быть очень осторожны, чтобы различать процентное изменение и процентное изменение. Помните, что если UNEMувеличивается с 8 до 9, это увеличение на один процентный пункт, но увеличение на 12,5% по сравнению с первоначальным уровнем безработицы. Использование журнала означает, что мы смотрим на процентное изменение уровня безработицы: log (9) - log (8) = 0,118 или 11,8%, что является логарифмическим приближением к фактическому увеличению на 12,5%.

Исходя из этого и копилки на предыдущем комментарии пользователя whuber к вопросу пользователя 1690130, я бы не стал использовать логарифм переменной плотности или процентной ставки для упрощения интерпретации, если только использование формы журнала не приводит к серьезному компромиссу, такому как возможность уменьшить асимметрию плотности или переменная скорость.


Часто для процентов (то есть пропорций на (0,1), используется логит-преобразование. Это потому, что пропорциональные данные часто нарушают предположение о нормальности невязок, и преобразование журнала не будет корректным.
Колин

3

Идея Шейна о том, что использование журнала для обработки неверных данных вполне оправдано. Как и Колин относительно важности нормальных остатков. На практике я обнаружил, что обычно вы можете получить нормальные остатки, если входные и выходные переменные также относительно нормальные. На практике это означает наблюдение за распределением преобразованных и нетрансформированных наборов данных и уверенность в том, что они стали более нормальными, и / или проведение тестов на нормальность (например, тесты Шапиро-Вилка или Колмогорова-Смирнова) и определение того, является ли результат более нормальным. Интерпретабельность и традиции также важны. Например, в когнитивной психологии часто используются лог-преобразования времени реакции, однако, по крайней мере, для меня интерпретация лог-RT неясна. Более того,


2
Ответы будут переупорядочены на основе голосов, поэтому постарайтесь не ссылаться на другие ответы.
Вебьорн Лёса

4
Проверка на нормальность обычно слишком серьезна. Часто достаточно получить симметрично распределенные остатки. (На практике остатки имеют тенденцию иметь строго пиковые распределения, отчасти как артефакт оценки, который я подозреваю, и поэтому будут проверяться как «существенно» ненормальные, независимо от того, как повторно выражаются данные.)
whuber

@whuber: Согласен. Вот почему я указал «стать более нормальным». Цель должна заключаться в том, чтобы оценить статистику теста на предмет изменений, а не принять / отклонить решение, основанное на p-значении теста.
Russellpierce

Надо ВСЕГДА ссылаться на другие ответы в зависимости от обстоятельств!
abalter

@abalter? Я не следую
Расселпирс
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.