Возможно, это очень простой вопрос, но я, похоже, не смог найти на него убедительного ответа. Я надеюсь здесь, я могу.
В настоящее время я читаю статьи в качестве подготовки к моей собственной магистерской диссертации. В настоящее время я читаю статью, в которой исследуется связь между твитами и особенностями фондового рынка.
В одной из своих гипотез они предполагают, что «увеличение объема твита связано с увеличением объема торговли».
Я ожидаю, что они, в парных корреляциях, будут коррелировать tweetVolume
с tradingVolume
, но вместо этого они сообщают, используя зарегистрированные версии: LN(tweetVolume)
и LN(tradingVolume)
.
Для моей диссертации я повторил этот кусочек их статьи. Я собрал твиты около 100 компаний за 6 месяцев ( tweetVolume
) и объем торгов акциями за тот же период. Если я сопоставляю абсолютные переменные, я нахожу, r=.282, p.000
но когда я использую зарегистрированные версии, я нахожу r=.488, p=.000
.
Я не понимаю, почему исследователи иногда используют зарегистрированные версии своих переменных и почему корреляция кажется намного выше, если вы делаете это. В чем причина и почему можно использовать зарегистрированные переменные?
Ваша помощь очень ценится :-)