Сначала давайте посмотрим, что обычно происходит, когда мы берем журналы чего-то, что правильно искажено.
Верхний ряд содержит гистограммы для выборок из трех разных, все более искаженных распределений.
Нижний ряд содержит гистограммы для их журналов.
Вы можете видеть, что центральный регистр ( ) был преобразован в симметрию, в то время как более мягкий правый наклонный угол ( ) теперь несколько левосторонний. С другой стороны, самая асимметричная переменная ( ) по-прежнему (слегка) перекошена вправо, даже после регистрации логов.yxz
Если бы мы хотели, чтобы наши дистрибутивы выглядели более нормально, преобразование определенно улучшило второй и третий случай. Мы видим, что это может помочь.
Так почему же это работает?
Обратите внимание, что когда мы смотрим на картину формы распределения, мы не учитываем среднее значение или стандартное отклонение - это просто влияет на метки на оси.
Таким образом, мы можем представить, что рассматриваем какие-то «стандартизированные» переменные (оставаясь положительными, все имеют, скажем, одинаковое расположение и разброс)
Взятие журналов «вытягивает» более экстремальные значения справа (высокие значения) относительно медианы, в то время как значения в крайнем левом углу (низкие значения) имеют тенденцию вытягиваться назад, дальше от медианы.
На первой диаграмме все , и имеют средние значения около 178, все медианы близки к 150, а их журналы имеют медианы около 5.xyz
Когда мы смотрим на исходные данные, крайнее правое значение, скажем, около 750, находится намного выше медианы. В случае это 5 межквартильных диапазонов выше медианы.y
Но когда мы берем бревна, они возвращаются к медиане; после взятия бревен это только приблизительно на 2 межквартильных диапазона выше среднего.
Между тем, низкое значение, такое как 30 (только 4 значения в выборке размером 1000 ниже его) немного меньше, чем один межквартильный диапазон ниже медианы . Когда мы берем бревна, это снова примерно на два межквартильных диапазона ниже новой медианы.y
Не случайно соотношение 750/150 и 150/30 равно 5, когда log (750) и log (30) оказались примерно на одинаковом расстоянии от медианы log (y). Вот как работают журналы - преобразование постоянных отношений в постоянные различия.
Не всегда бывает, что журнал заметно поможет. Например, если вы берете, скажем, логнормальную случайную переменную и смещаете ее по существу вправо (то есть добавляете к ней большую константу) так, чтобы среднее значение стало большим по сравнению со стандартным отклонением, тогда взятие логарифма этого будет очень мало влиять на форма. Это было бы менее косо - но едва.
Но другие преобразования - скажем, квадратный корень - также вызовут большие значения. Почему журналы, в частности, более популярны?
Я коснулся одной причины в конце предыдущей части - постоянные отношения имеют тенденцию к постоянным различиям. Это делает журналы относительно простыми для интерпретации, поскольку постоянные процентные изменения (например, увеличение на 20% для каждого набора чисел) становятся постоянным сдвигом. Таким образом, уменьшение на в натуральном логарифме - это уменьшение исходных чисел на 15%, независимо от того, насколько велико исходное число.−0.162
Например, многие экономические и финансовые данные ведут себя так (постоянное или почти постоянное влияние на процентную шкалу). В этом случае масштаб лога имеет большой смысл. Более того, в результате этого эффекта масштаба в процентах. разброс значений имеет тенденцию увеличиваться по мере увеличения среднего значения, и взятие журналов также имеет тенденцию стабилизировать разброс. Это, как правило , более важным , чем нормальности. Действительно, все три распределения в исходной диаграмме происходят из семейств, где стандартное отклонение будет увеличиваться со средним значением, и в каждом случае взятие бревен стабилизирует дисперсию. [Это не случается со всеми правильно искаженными данными, все же. Это просто очень распространено в виде данных, которые возникают в определенных областях применения.]
Также бывают случаи, когда квадратный корень делает вещи более симметричными, но это обычно происходит с менее искаженным распределением, чем я использую в своих примерах здесь.
Мы могли бы (довольно легко) построить другой набор из трех более мягких примеров с перекосом вправо, где квадратный корень сделал один перекос влево, один симметричный, а третий по-прежнему наклонен вправо (но немного меньше перекоса, чем раньше).
А как насчет левосторонних распределений?
Если вы применили преобразование журнала к симметричному распределению, оно будет стремиться сделать его левосторонним по той же причине, по которой часто делает правосторонний еще более симметричным - см. Соответствующее обсуждение здесь .
Соответственно, если вы примените log-преобразование к чему-то, что уже осталось косым, оно будет иметь тенденцию к тому, чтобы сделать его еще более левым, смещая объекты выше медианы еще более плотно, и еще сильнее растягивая объекты ниже медианы вниз.
Таким образом, преобразование журнала не было бы полезно тогда.
Смотрите также силовые трансформации / лестница Тьюки. Распределения с левым наклоном могут быть сделаны более симметричными, если взять степень (скажем, больше 1 - возведение в квадрат) или возвести в степень. Если она имеет очевидную верхнюю границу, можно вычесть наблюдения из верхней границы (давая искаженный результат справа), а затем попытаться преобразовать это.