Когда (и почему) вы должны взять журнал распределения (чисел)?


174

Скажем, у меня есть некоторые исторические данные, например, прошлые цены на акции, колебания цен на авиабилеты, прошлые финансовые данные компании ...

Теперь кто-то (или какая-то формула) приходит и говорит «давайте возьмем / используем журнал дистрибутива», и вот куда я иду ПОЧЕМУ ?

Вопросов:

  1. ПОЧЕМУ в первую очередь стоит взять журнал дистрибутива?
  2. ЧТО делает журнал дистрибутива «давать / упрощать», чего не мог / не мог оригинальный дистрибутив?
  3. Является ли преобразование журнала «без потерь»? То есть, при преобразовании в лог-пространство и анализе данных, те же выводы верны для исходного распределения? Как придешь?
  4. И, наконец, КОГДА взять журнал раздачи? При каких условиях человек решает это сделать?

Я действительно хотел понять основанные на журналах распределения (например, lognormal), но я никогда не понимал, когда и почему аспекты - то есть, журнал распределения является нормальным распределением, и что? Что это вообще говорит мне и зачем? Отсюда и вопрос!

ОБНОВЛЕНИЕ : Согласно комментарию @ whuber, я посмотрел посты и по какой-то причине я понимаю использование преобразований журнала и их применение в линейной регрессии, поскольку вы можете нарисовать связь между независимой переменной и журналом зависимой переменной. Тем не менее, мой вопрос является общим в смысле анализа самого дистрибутива - нет никакого отношения как такового, которое я могу заключить, чтобы помочь понять причину принятия журналов для анализа дистрибутива. Я надеюсь, что я имею смысл: - /

В регрессионном анализе у вас есть ограничения на тип / соответствие / распределение данных, и вы можете преобразовать их и определить отношение между независимой и (не преобразованной) зависимой переменной. Но когда / почему это можно сделать для изолированного распределения, где ограничения типа / соответствия / распределения не обязательно применимы в рамках (например, регрессия). Я надеюсь, что разъяснение делает вещи более ясными, чем запутывающими :)

Этот вопрос заслуживает четкого ответа на вопрос «ПОЧЕМУ и КОГДА»


3
Поскольку это охватывает практически ту же основу, что и предыдущие вопросы здесь и здесь , прочитайте эти темы и обновите свой вопрос, чтобы сосредоточиться на любых аспектах этой проблемы, которые еще не были рассмотрены. Обратите внимание, что № 4 (и часть № 3) являются элементарными вопросами о логарифмах, ответы на которые легко найти во многих местах.
whuber

1
Разъяснение помогает. Возможно, вы захотите обдумать тот факт, что регрессия только с постоянным членом (и без других независимых переменных) сводится к оценке вариации данных относительно их среднего значения. Таким образом, если вы действительно понимаете, как вести журналы зависимых переменных в регрессии, вы уже понимаете (более простую) ситуацию, о которой вы здесь спрашиваете. Короче говоря, когда у вас есть ответы на все четыре вопроса для регрессии, вам не нужно снова спрашивать их о «распределении в изоляции».
whuber

@whuber: Понятно ... поэтому я понимаю причины, по которым журналы берутся в регрессии, но только потому, что меня так учили - я понимаю это с точки зрения необходимости, т. е. чтобы убедиться, что данные вписываются в предположения линейной регрессии. Это мое единственное понимание. Может быть, мне не хватает «реального понимания» эффекта от взятия логов и, следовательно, путаницы ... какая-либо помощь? ;)
PhD

2
Ах, но вы знаете намного больше, потому что после использования журналов в регрессии вы знаете, что результаты интерпретируются по-разному, и вы знаете, как позаботиться о обратном преобразовании подогнанных значений и доверительных интервалов. Я полагаю, что вы, возможно, не растерялись и, вероятно, уже знаете многие ответы на эти четыре вопроса, даже если изначально не знали об этом :-).
whuber

Ответы:


98

Если вы принимаете форму модели, которая является нелинейной, но может быть преобразована в линейную модель, такую ​​как то было бы оправданно взять логарифмы чтобы соответствовать указанной форме модели. В целом, независимо от того, есть ли у вас причинно-следственные связи, единственный раз, когда вы будете оправданы или правильны, принимая журнал это когда можно доказать, что дисперсия пропорциональна ожидаемому значениюlogY=β0+β1tYYYY2, Я не помню первоначальный источник для следующего, но он хорошо суммирует роль силовых преобразований. Важно отметить, что предположения о распределении всегда касаются процесса ошибки, а не наблюдаемого Y, поэтому определенное «нет-нет» анализировать исходный ряд для соответствующего преобразования, если ряд не определен простой константой.

Следует избегать необоснованных или неправильных преобразований, в том числе различий, так как они часто представляют собой неверную / непродуманную попытку справиться с неопознанными аномалиями / изменениями уровня / временными тенденциями или изменениями параметров или изменениями в ошибках. Классический пример этого обсуждается начиная со слайда 60 здесь: http://www.autobox.com/cms/index.php/afs-university/intro-to-forecasting/doc_download/53-capabilities-presentation, где три импульсные аномалии ( без лечения) привела к необоснованному преобразованию бревна первыми исследователями. К сожалению, некоторые из наших нынешних исследователей все еще делают ту же ошибку.

Оптимальное преобразование мощности определяется с помощью теста Бокса-Кокса, где

  • -1. является взаимным
  • -.5 это взаимный квадратный корень
  • 0.0 - логарифмическое преобразование
  • .5 - квадратное преобразование
  • 1.0 не является преобразованием.

Обратите внимание, что если у вас нет предиката / причинно-следственной / вспомогательной входной серии, модель имеет вид и что нет никаких требований, предъявляемых к распределению НО сделаны относительно , процесса ошибки. В этом случае требования к дистрибутиву относительно переходят непосредственно к . Если у вас есть вспомогательные ряды, такие как регрессия или модель авторегрессии-скользящего среднего с моделью экзогенных входов ( модель ARMAX ), все предположения о распределении относятся к и не имеют никакого отношения к распределению . Таким образом, в случае модели ARIMA или модели ARMAX никогда бы не предполагалось преобразованиеYt=u+atYatatYtatYtY , прежде чем найти оптимальное преобразование Бокса-Кокса , который затем предложить лекарство (преобразование) для . В прежние времена некоторые аналитики трансформирует как и в предположительным образом просто чтобы быть в состоянии отразить на процентное изменение в результате в процентном изменении путем изучения коэффициента регрессии между и . В целом, трансформации подобны наркотикам, некоторые из них хороши, а некоторые вредны для вас! Их следует использовать только при необходимости, а затем с осторожностью.YYXYXlogYlogX


2
Я согласен с тем, что тот, кто оставил отрицательный голос (ы), должен оставить комментарий о том, почему это было отклонено. Для Irishstat было бы намного легче прочитать ваш пост, если бы вы воспользовались опциями форматирования для оставления ответов, особенно теми, которые доступны для разметки уравнений в латексе. Смотрите раздел справки по редактированию уценки . Эта ссылка доступна всякий раз, когда вы вводите ответ в верхнем правом углу поля для сообщений (в оранжевом круге с вопросительным знаком).
Энди W

4
Приведенная таблица приведена во введении к анализу линейной регрессии Дугласом К. Монтгомери, Элизабет А. Пек, Дж. Джеффри Вайнингом.
user1717828

@ user1717828 tu .. Я всегда был фанатом Монтгомери, так как у него длинная борода с временными сериями
IrishStat

Разве не всегда верно, что второй момент и дисперсия пропорциональны друг другу? У нас есть классическое уравнение: дисперсия равна второму моменту минус первый момент в квадрате.
информационный

Как вы говорите, дисперсия является функцией второго момента. Где я подразумеваю иначе? Кроме того, дисперсия может изменяться (детерминистически) в разные моменты времени СМ. Pdfs.semanticscholar.org/09c4/…, которая не исправляется степенным преобразованием.
IrishStat

108

Логарифмическая шкала информирует об относительных изменениях (мультипликативная), а линейная шкала информирует об абсолютных изменениях (аддитивная). Когда вы используете каждый? Когда вы заботитесь об относительных изменениях, используйте шкалу журналов; когда вы заботитесь об абсолютных изменениях, используйте линейную шкалу. Это верно для распределений, но также для любого количества или изменений в количествах.

Обратите внимание, я использую слово «забота» здесь очень конкретно и намеренно. Без модели или цели на ваш вопрос невозможно ответить; модель или цель определяет, какой масштаб важен. Если вы пытаетесь что-то смоделировать, а механизм действует посредством относительных изменений, масштабирование журналов имеет решающее значение для записи поведения, наблюдаемого в ваших данных. Но если механизм базовой модели аддитивен, вы захотите использовать линейный масштаб.

Пример. Фондовый рынок .
Запас А в день 1: 100. Во второй день - 101. Каждая служба отслеживания запасов в мире сообщает об этом изменении двумя способами! (1) + 1. (2) + 1%. Первая мера абсолютного, аддитивного изменения; вторая мера относительного изменения.$$$

Иллюстрация относительного изменения по сравнению с абсолютным: относительное изменение одно и то же, абсолютное изменение другое.
Акция А переходит от 1 к 1.10. Запас B идет от 100 до 110.$$$$

Акции А выросли на 10%, акции Б прибавили 10% (относительный масштаб равен)
... но акции А получили 10 центов, в то время как акции Б прибавили 10 (Б получил больше абсолютной суммы в долларах)$

Если мы преобразуем в пространство журнала, относительные изменения отображаются как абсолютные изменения.

Запас А переходит от к = 0 до .0413 Запас В переходит от к = От 2 до 2,0413log10($1)log10($1.10)
log10($100)log10($110)

Теперь, взяв абсолютную разницу в пространстве журнала , мы обнаружим, что оба изменились на .0413.

Обе эти меры изменения важны, и какая из них важна для вас, зависит исключительно от вашей модели инвестирования. Есть две модели. (1) Вложение фиксированной суммы основного долга или (2) инвестирование в фиксированное количество акций.

Модель 1: Инвестирование с фиксированной суммой основного долга.

Скажем , вчера запашем стоимость 1 за акцию, а стоимость акций B 100 за акцию. Сегодня они оба подорожали на один доллар до 2 и 101 соответственно. Их абсолютное изменение идентично ( 1), но их относительное изменение резко отличается (100% для A, 1% для B). Учитывая, что у вас есть фиксированная сумма основного долга для инвестиций, скажем, 100, вы можете позволить себе только 1 акцию B или 100 акций A. Если бы вы инвестировали вчера, у вас было бы 200 с A или 101 с Б. Итак, здесь вы «заботитесь» об относительных выгодах, особенно потому, что у вас есть конечное количество основного долга.$$$$$$$$

Модель 2: фиксированное количество акций.

В другом сценарии предположим, что ваш банк позволяет покупать только блоки по 100 акций, и вы решили инвестировать в 100 акций A или B. В предыдущем случае, если вы покупаете A или B, ваша прибыль будет одинаковой. ( 100 - т.е. $ 1 за каждую акцию).$

Теперь предположим, что мы думаем о стоимости акций как о случайной переменной, колеблющейся во времени, и мы хотим создать модель, которая в целом отражает поведение акций. И скажем, мы хотим использовать эту модель для максимизации прибыли. Мы рассчитываем распределение вероятностей, значения x которых выражены в единицах «цена акции», а значения y - в вероятности соблюдения данной цены акции. Мы делаем это для акции A и акции B. Если вы подпишетесь на первый сценарий, когда у вас есть фиксированная сумма основной суммы, которую вы хотите инвестировать, то учет этих распределений будет информативным. Почему? Что вас волнует, так это форма распределения в относительном пространстве. Будет ли акция идти от 1 до 10 или от 10 до 100, для вас не имеет значения, верно? Оба случая в 10 разОтносительная выгода. Это естественным образом проявляется в логарифмическом распределении в том смысле, что приросты единиц напрямую соответствуют коэффициентам сгибов. Для двух акций, чье среднее значение отличается, но относительное изменение которых одинаково распределено (они имеют одинаковое распределение ежедневных процентных изменений), их распределение по журналам будет идентичным по форме, только что сместившись. И наоборот, их линейные распределения не будут одинаковыми по форме, а более высокое значение имеет более высокую дисперсию.

Если бы вы посмотрели на эти же распределения в линейном или абсолютном пространстве, вы бы подумали, что более высокие цены на акции соответствуют большим колебаниям. Однако для ваших целей инвестирования, когда важны только относительные выгоды, это не обязательно так.

Пример 2. Химические реакции. Предположим, у нас есть две молекулы A и B, которые подвергаются обратимой реакции.

AB

которая определяется индивидуальными константами скорости

( ) ( )kabABkbaBA

Их равновесие определяется соотношением:

K=kabkba=[A][B]

Два пункта здесь. (1) Это мультипликативное соотношение между концентрациями и . (2) Это соотношение не является произвольным, а возникает непосредственно из фундаментальных физико-химических свойств, которые определяют молекулы, сталкивающиеся друг с другом и реагирующие.AB

Теперь предположим, что у нас есть некоторое распределение концентрации A или B. Соответствующий масштаб этого распределения находится в логарифмическом пространстве, потому что модель того, как изменяется концентрация, определяется мультипликативно (произведение концентрации A на обратную величину концентрации B). В некоторой альтернативной вселенной, где , мы можем посмотреть на это распределение концентрации в абсолютном, линейном пространстве.K=kabkba=[A][B]

Тем не менее, если у вас есть модель, будь то для прогнозирования фондового рынка или химической кинетики, вы всегда можете «без потерь» преобразовать между линейным и логическим пространством, если ваш диапазон значений . Выбор линейного или логарифмического распределения зависит от того, что вы пытаетесь получить из данных.(0,inf)

РЕДАКТИРОВАТЬ . Интересная параллель, которая помогла мне построить интуицию, - это пример арифметических и геометрических средств., Арифметическое (ванильное) среднее вычисляет среднее число, предполагая скрытую модель, где абсолютные различия имеют значение. Пример. Среднее арифметическое 1 и 100 составляет 50,5. Предположим, мы говорим о концентрациях, где химическая связь между концентрациями является мультипликативной. Тогда средняя концентрация должна быть действительно рассчитана по логарифмической шкале. Это называется средним геометрическим. Среднее геометрическое 1 и 100 равно 10! С точки зрения относительных различий это имеет смысл: 10/1 = 10 и 100/10 = 10, т. Е. Относительные изменения между средним и двумя значениями одинаковы. Аддитивно мы находим то же самое; 50,5-1 = 49,5 и 100-50,5 = 49,5.


2
Это действительно полезный ответ, и я люблю примеры. Не могли бы вы добавить больше о "когда" специально для использования log-transform? Вы говорите: «Когда вы заботитесь об относительных изменениях, используйте шкалу журналов; когда вы заботитесь об абсолютных изменениях, используйте линейную шкалу». Но есть ли случаи, когда вы заботитесь об относительных изменениях, но не должны преобразовывать лог, и если да, то как вы обнаруживаете эти случаи? Например, в этой статье приводятся примеры того, что данные, которые не соответствуют нормальному распределению журнала, не должны преобразовываться в журнал: ncbi.nlm.nih.gov/pmc/articles/PMC4120293
skeller88

@ skeller88 Я согласен с этой статьей; это узкий ответ на более широкий (и философский!) вопрос «почему мы преобразуем распределения?» Я думаю, что ответ заключается в том, что у нас есть хорошо разработанный статистический инструментарий для контрастирования между нормальными дистрибутивами, но менее развитый инструментарий для других, возможно, даже неназванных дистрибутивов (большинство). Подход к оценке необычно выглядящего дистрибутива может заключаться в том, чтобы взять его журнал, просто чтобы посмотреть, выглядит ли он более нормально; но как технически описывает IrishStat выше, этот путь чреват опасностью (квадратного колышка, разновидность круглого отверстия).
vector07

1
Существует соответствующее объяснение этого эффекта и почему это имеет значение для деревьев решений немного больше по отношению кdatascience.com/…
Кейт,
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.