Зачем использовать зарегистрированные переменные?

Возможно, это очень простой вопрос, но я, похоже, не смог найти на него убедительного ответа. Я надеюсь здесь, я могу.

В настоящее время я читаю статьи в качестве подготовки к моей собственной магистерской диссертации. В настоящее время я читаю статью, в которой исследуется связь между твитами и особенностями фондового рынка.

В одной из своих гипотез они предполагают, что «увеличение объема твита связано с увеличением объема торговли».

Я ожидаю, что они, в парных корреляциях, будут коррелировать tweetVolumeс tradingVolume, но вместо этого они сообщают, используя зарегистрированные версии: LN(tweetVolume)и LN(tradingVolume).

Для моей диссертации я повторил этот кусочек их статьи. Я собрал твиты около 100 компаний за 6 месяцев ( tweetVolume) и объем торгов акциями за тот же период. Если я сопоставляю абсолютные переменные, я нахожу, r=.282, p.000но когда я использую зарегистрированные версии, я нахожу r=.488, p=.000.

Я не понимаю, почему исследователи иногда используют зарегистрированные версии своих переменных и почему корреляция кажется намного выше, если вы делаете это. В чем причина и почему можно использовать зарегистрированные переменные?

Ваша помощь очень ценится :-)

correlation data-transformation logarithm

— Pr0no
источник

Если вы видите Связанные темы в правом нижнем углу страницы, использование логарифмов было рассмотрено несколько раз ранее. В частности, см. В линейной регрессии, когда уместно использовать лог независимой переменной вместо фактических значений? ,

— Энди В.

Причины использования зарегистрированных переменных делятся на две категории: статистические и существенные.

Статистически, если ваши переменные имеют перекос вправо (то есть они имеют длинный хвост в верхнем конце), то такой показатель, как корреляция или регрессия, может сильно зависеть от одного или нескольких случаев в верхнем конце на одном или обоих переменные (выбросы, точки влияния, влиятельные точки). Взятие журнала может помочь этому, уменьшая или устраняя перекос.

По существу, некоторые понятия лучше рассматривать с точки зрения соотношений, чем различий. Возьмите две меры громкости, которые вы обсуждаете. Теперь сравните две компании: одна - небольшая компания, торгующая на NASDAQ, о которой мало кто слышал, другая - мегакорпорация. Первый получит очень мало твитов в день. Последний получит много; аналогично для объема торгов. Предположим (просто чтобы выбрать цифры), что компания А обычно получает 100 твитов в день, а последняя получает 100 000.

Если количество твитов компании А увеличится со 100 до 500 (разница 400, соотношение 5), это огромные новости - что-то должно происходить. Но если компания B поднимется с 100 000 до 100 400 (разница 400, соотношение очень близко к 1), никого не волнует. Грубый эквивалент был бы, если бы он пошел от 100 000 до 500 000.

— Питер Флом - Восстановить Монику
источник

Спасибо за ваш быстрый ответ. Еще два вопроса приходят из вашего ответа. Во-первых, если у меня есть 3 свойства для объекта (объем торговли акциями, доходность и волатильность) и я беру зарегистрированную версию для одного из них? То, что вы говорите о твитах компаний A и B, может также учитываться для их доходов: если акции компании A возрастают с 1 до 1,50, то доходы составляют (50%) 0,50. Компания B нуждается в увеличении с 400 до 600 (200) для аналогичного% возврата. И вытекает из этого: если отдача отрицательная, LN (-0.50), очевидно, не работает. Разрешено ли принимать -LN (0,50)?

— Pr0no

Кроме того, если я правильно понимаю, взятие зарегистрированной переменной не является свободным выбором - это должно быть аргументировано диаграммами skweness (статистически)? И, по сути, это просто более логичное обоснование для регистрации, которые фактически обеспечивают Proff для этого? Другими словами, есть ли здесь эмпирические правила, определяющие пороговые значения, выше которых вы должны взять зарегистрированную версию, или это вопрос интерпретации?

— Pr0no

В этом случае вы не хотите регистрировать проценты: взятие процента делает то, что сделал бы журнал. То есть это делает отношения вещей. Конечно, вы можете взять журнал некоторых переменных, а не других. Получение журнала не требует диаграмм асимметрии, но обычно переменные, которые должны быть зарегистрированы, являются правильными. Но главная вещь вещество . Если нет смысла брать журнал, не делайте этого. Вместо этого используйте статистические методы, которые работают с перекошенными переменными. Вещество на первом месте.

— Питер Флом - Восстановить Монику