По какой причине преобразование журналов используется с искаженными дистрибутивами?

18

Я однажды слышал, что

логарифмическое преобразование является наиболее популярным для правосторонних распределений в линейной регрессии или квантильной регрессии

Я хотел бы знать, есть ли причина, лежащая в основе этого утверждения? Почему преобразование журналов подходит для правильного распределения?

Как насчет левостороннего распределения?

— user3269
источник

26

Экономисты (как я) любят преобразование регистрации. Особенно нам это нравится в регрессионных моделях, например:

\begin{aligned} \ln Y_{i} & = β_{1} + β_{2} \ln X_{i} + ϵ_{i} \end{aligned}

$\begin{align} \ln{Y_i} &= \beta_1 + \beta_2 \ln{X_i} + \epsilon_i \end{align}$

Почему мы так любим это? Вот список причин, по которым я даю студентам лекцию:

Он уважает положительность . Много раз в реальных приложениях в экономике и в других местах по своей природе является положительным числом. Это может быть цена, налоговая ставка, произведенное количество, себестоимость продукции, расходы на какую-либо категорию товаров и т. Д. Прогнозируемые значения из нетрансформированной линейной регрессии могут быть отрицательными. Прогнозируемые значения из лог-преобразованной регрессии никогда не могут быть отрицательными. Это (См. Мой предыдущий ответ для деривации). $Y$ $Y$ $\widehat{Y}_j=\exp{\left(\beta_1 + \beta_2 \ln{X_j}\right)} \cdot \frac{1}{N} \sum \exp{\left(e_i\right)}$
Функциональная форма log-log удивительно гибка. Обратите внимание: что дает нам: это много разных форм. Линия (чей наклон будет определяться , так что может иметь любой положительный наклон), гипербола, парабола и форма, подобная квадратному корню. Я нарисовал его с и , но в реальном приложении ни то, ни другое не было бы правдой, так что наклон и высота кривых при $\begin{aligned} \ln Y_{i} & = β_{1} + β_{2} \ln X_{i} + ϵ_{i} \\ Y_{i} & = \exp (β_{1} + β_{2} \ln X_{i}) \cdot \exp (ϵ_{i}) \\ Y_{i} & = {(X_{i})}^{β_{2}} \exp (β_{1}) \cdot \exp (ϵ_{i}) \end{aligned}$ $\begin{align} \ln{Y_i} &= \beta_1 + \beta_2 \ln{X_i} + \epsilon_i \\ Y_i &= \exp{\left(\beta_1 + \beta_2 \ln{X_i}\right)}\cdot\exp{\left(\epsilon_i\right)}\\ Y_i &= \left(X_i\right)^{\beta_2}\exp{\left(\beta_1\right)}\cdot\exp{\left(\epsilon_i\right)}\\ \end{align}$ $\exp{\left(\beta_1\right)}$ $\beta_1=0$ $\epsilon=0$ $X=1$ будет контролироваться теми, а не установлен на 1.
Как упоминает TrynnaDoStat, форма log-log «рисует» большие значения, что часто облегчает просмотр данных, а иногда нормализует дисперсию между наблюдениями.
Коэффициент интерпретируется как упругость. Это процентное увеличение от увеличения на один процент . $\beta_2$ $Y$ $X$
Если - фиктивная переменная, вы включаете ее без регистрации. В этом случае - это процентная разница в между категорией категорией . $X$ $\beta_2$ $Y$ $X=1$ $X=0$
Если время, вы снова включаете его без регистрации, как правило. В этом случае является скорость роста --- измеряется в единицах времени независимо измеряется. Если есть года, то коэффициент годовой темп роста в , например. $X$ $\beta_2$ $Y$ $X$ $X$ $Y$
Коэффициент наклона, , становится масштабно-инвариантным. Это означает, с одной стороны, что у него нет единиц измерения, а с другой стороны, что если вы измените масштаб (то есть измените единицы измерения) или , это не окажет абсолютно никакого влияния на расчетное значение . Ну, по крайней мере, с OLS и другими соответствующими оценщиками. $\beta_2$ $X$ $Y$ $\beta_2$
Если ваши данные распределяются по журналу нормально, преобразование журнала делает их нормально распределенными. У нормально распределенных данных есть много чего.

Статистики, как правило, считают, что экономисты с энтузиазмом относятся к этой конкретной трансформации данных. Я думаю, это потому, что они считают мою точку 8 и вторую половину моей точки 3 очень важной. Таким образом, в тех случаях, когда данные не распределены по логарифмически нормам или регистрация данных не приводит к тому, что преобразованные данные имеют одинаковую дисперсию по наблюдениям, статистику не очень понравится преобразование. Экономист в любом случае, скорее всего, продвинется вперед, так как в трансформации нам действительно нравятся пункты 1, 2 и 4-7.

— Билл
источник

7

Это стандартные пункты, но очень хорошо, чтобы они были сведены кратко. Многие учетные записи охватывают только некоторые из этих пунктов. Небольшое замечание: я думаю, что ваш контраст между взглядами экономистов и статистиков немного преувеличен. Например, важность связи по семейству ошибок проходит через обобщенную литературу по линейным моделям, хотя это может быть связано с большим количеством труб. Кин, Оливер Н. 1995. Преобразование журнала является особенным. Статистика в медицине 14: 811-819. DOI: 10.1002 / sim.4780140810 - другой пример.

— Ник Кокс

21

Сначала давайте посмотрим, что обычно происходит, когда мы берем журналы чего-то, что правильно искажено.

Верхний ряд содержит гистограммы для выборок из трех разных, все более искаженных распределений.

Нижний ряд содержит гистограммы для их журналов.

введите описание изображения здесь

Вы можете видеть, что центральный регистр ( ) был преобразован в симметрию, в то время как более мягкий правый наклонный угол ( ) теперь несколько левосторонний. С другой стороны, самая асимметричная переменная ( ) по-прежнему (слегка) перекошена вправо, даже после регистрации логов. $y$ $x$ $z$

Если бы мы хотели, чтобы наши дистрибутивы выглядели более нормально, преобразование определенно улучшило второй и третий случай. Мы видим, что это может помочь.

Так почему же это работает?

Обратите внимание, что когда мы смотрим на картину формы распределения, мы не учитываем среднее значение или стандартное отклонение - это просто влияет на метки на оси.

Таким образом, мы можем представить, что рассматриваем какие-то «стандартизированные» переменные (оставаясь положительными, все имеют, скажем, одинаковое расположение и разброс)

Взятие журналов «вытягивает» более экстремальные значения справа (высокие значения) относительно медианы, в то время как значения в крайнем левом углу (низкие значения) имеют тенденцию вытягиваться назад, дальше от медианы.

введите описание изображения здесь

На первой диаграмме все , и имеют средние значения около 178, все медианы близки к 150, а их журналы имеют медианы около 5. $x$ $y$ $z$

Когда мы смотрим на исходные данные, крайнее правое значение, скажем, около 750, находится намного выше медианы. В случае это 5 межквартильных диапазонов выше медианы. $y$

Но когда мы берем бревна, они возвращаются к медиане; после взятия бревен это только приблизительно на 2 межквартильных диапазона выше среднего.

Между тем, низкое значение, такое как 30 (только 4 значения в выборке размером 1000 ниже его) немного меньше, чем один межквартильный диапазон ниже медианы . Когда мы берем бревна, это снова примерно на два межквартильных диапазона ниже новой медианы. $y$

введите описание изображения здесь

Не случайно соотношение 750/150 и 150/30 равно 5, когда log (750) и log (30) оказались примерно на одинаковом расстоянии от медианы log (y). Вот как работают журналы - преобразование постоянных отношений в постоянные различия.

Не всегда бывает, что журнал заметно поможет. Например, если вы берете, скажем, логнормальную случайную переменную и смещаете ее по существу вправо (то есть добавляете к ней большую константу) так, чтобы среднее значение стало большим по сравнению со стандартным отклонением, тогда взятие логарифма этого будет очень мало влиять на форма. Это было бы менее косо - но едва.

Но другие преобразования - скажем, квадратный корень - также вызовут большие значения. Почему журналы, в частности, более популярны?

Я коснулся одной причины в конце предыдущей части - постоянные отношения имеют тенденцию к постоянным различиям. Это делает журналы относительно простыми для интерпретации, поскольку постоянные процентные изменения (например, увеличение на 20% для каждого набора чисел) становятся постоянным сдвигом. Таким образом, уменьшение на в натуральном логарифме - это уменьшение исходных чисел на 15%, независимо от того, насколько велико исходное число. $-0.162$

Например, многие экономические и финансовые данные ведут себя так (постоянное или почти постоянное влияние на процентную шкалу). В этом случае масштаб лога имеет большой смысл. Более того, в результате этого эффекта масштаба в процентах. разброс значений имеет тенденцию увеличиваться по мере увеличения среднего значения, и взятие журналов также имеет тенденцию стабилизировать разброс. Это, как правило , более важным , чем нормальности. Действительно, все три распределения в исходной диаграмме происходят из семейств, где стандартное отклонение будет увеличиваться со средним значением, и в каждом случае взятие бревен стабилизирует дисперсию. [Это не случается со всеми правильно искаженными данными, все же. Это просто очень распространено в виде данных, которые возникают в определенных областях применения.]

Также бывают случаи, когда квадратный корень делает вещи более симметричными, но это обычно происходит с менее искаженным распределением, чем я использую в своих примерах здесь.

Мы могли бы (довольно легко) построить другой набор из трех более мягких примеров с перекосом вправо, где квадратный корень сделал один перекос влево, один симметричный, а третий по-прежнему наклонен вправо (но немного меньше перекоса, чем раньше).

А как насчет левосторонних распределений?

Если вы применили преобразование журнала к симметричному распределению, оно будет стремиться сделать его левосторонним по той же причине, по которой часто делает правосторонний еще более симметричным - см. Соответствующее обсуждение здесь .

Соответственно, если вы примените log-преобразование к чему-то, что уже осталось косым, оно будет иметь тенденцию к тому, чтобы сделать его еще более левым, смещая объекты выше медианы еще более плотно, и еще сильнее растягивая объекты ниже медианы вниз.

Таким образом, преобразование журнала не было бы полезно тогда.

Смотрите также силовые трансформации / лестница Тьюки. Распределения с левым наклоном могут быть сделаны более симметричными, если взять степень (скажем, больше 1 - возведение в квадрат) или возвести в степень. Если она имеет очевидную верхнюю границу, можно вычесть наблюдения из верхней границы (давая искаженный результат справа), а затем попытаться преобразовать это.

— Glen_b - Восстановить Монику
источник

Спасибо Glen_b за этот отличный ответ. Вы даете нам эмпирические данные для иллюстрации, а затем даете интуитивное объяснение того, почему / как это преобразование работает. Очень признателен.

— Ram

5

$y = ln(x)$ $x$

Теперь в корректном распределении у вас есть несколько очень больших значений. Логарифмическое преобразование по существу выводит эти значения в центр распределения, делая его более похожим на нормальное распределение.

— TrynnaDoStat
источник

1

Все эти ответы являются коммерческими предложениями для естественного преобразования бревен. Есть предостережения в его использовании, предостережения, которые можно обобщить для любых преобразований. Как правило, все математические преобразования изменяют формат PDF исходных переменных, независимо от того, действуют ли они на сжатие, расширение, инвертирование, масштабирование, что угодно. Самая большая проблема, которая возникает с чисто практической точки зрения, заключается в том, что при использовании в регрессионных моделях, где предсказания являются ключевым выходом модели, преобразования зависимой переменной, Y-hat, подвержены потенциально значительному смещению ретрансформации. Обратите внимание, что естественные логарифмические преобразования не застрахованы от этого смещения, они просто не подвержены такому влиянию, как некоторые другие, аналогичные действующие преобразования. Есть бумаги, предлагающие решения для этой предвзятости, но они действительно не очень хорошо работают. На мой взгляд, вы находитесь на гораздо более безопасной почве, не пытаясь вообще изменить Y и найти надежные функциональные формы, которые позволят вам сохранить исходную метрику. Например, помимо натурального логарифма, есть и другие преобразования, которые сжимают хвост искаженных и куртотических переменных, таких как обратный гиперболический синус или W Ламберта., Оба этих преобразований работают очень хорошо в создании симметричных PDF - файлов , и, следовательно, Gaussian подобные ошибки, на основе информации с тяжелыми хвостами, но следить за предвзятость при попытке принести предсказания обратно в исходный масштаб для DV, Y . Это может быть некрасиво.

— Майк Хантер
источник

3

W

$W$

3

Мы все раздражены различными аспектами правил, но многие из нас продолжают взаимодействовать здесь, потому что мы пришли, чтобы увидеть их мудрость и нашли конструктивные способы обойти очевидные ограничения. Это правило является фундаментальным: пост, который не отвечает на вопрос, не принадлежит. Он стремится сохранять каждый поток связным, ограниченным, чистым и тематическим. Это ключ к созданию материала, который имеет тенденцию быть более полезным и интересным, чем вы найдете на любом другом сайте вопросов и ответов.

— whuber

3

Вы возились с этим, но, на мой взгляд, это остается очень проблематичным в качестве ответа. 1. Вы расширяете вопрос несколькими способами, например, добавляя дистрибутивы с тяжелыми хвостами. Это может быть разумно сделать в некоторых темах, но здесь есть хорошо сфокусированная тема с качественными ответами, а дополнительный ответ здесь, в общем, мутит воду. При наличии хороших ответов на вопрос должна быть действительно веская причина для нового ответа.

— Ник Кокс

4

2. Утверждения о предвзятости трансформации остаются махающими руками; нет технической точности в ответе, который соответствует утверждениям, включая таинственное утверждение, что журнал менее проблематичен, чем другие подобные преобразования.

— Ник Кокс

4

W

$W$

0

Было сделано много интересных моментов. Еще несколько?

1) Я хотел бы предположить, что другой проблемой с линейной регрессией является то, что «левой стороной» уравнения регрессии является E (y): ожидаемое значение. Если распределение ошибок не симметрично, то достоинства для изучения ожидаемого значения являются слабыми. Ожидаемое значение не представляет особого интереса, когда ошибки асимметричны. Вместо этого можно было бы исследовать квантильную регрессию. Тогда исследование, скажем, медианы или других процентных пунктов может быть достойным, даже если ошибки асимметричны.

2) Если кто-то решит преобразовать переменную ответа, то он может захотеть преобразовать одну или несколько объясняющих переменных с помощью той же функции. Например, если у кого-то есть «конечный» результат в качестве ответа, то у него может быть «базовый» результат в качестве пояснительной переменной. Для интерпретации имеет смысл преобразование 'final' и 'baseline' с одной и той же функцией.

3) Основным аргументом для преобразования объясняющей переменной часто является линейность ответа - объяснительная связь. В наши дни можно рассмотреть другие варианты, такие как ограниченные кубические сплайны или дробные полиномы для объясняющей переменной. Конечно, часто можно найти определенную ясность, если можно найти линейность.

— Гордон Хилтон Фик
источник