Разрешено ли использовать средние значения для набора данных для улучшения корреляции?


9

У меня есть набор данных с зависимой и независимой переменной. Оба не временные ряды. У меня 120 наблюдений. Коэффициент корреляции составляет 0,43.

После этого расчета я добавил столбец для обеих переменных со средним значением для каждых 12 наблюдений, в результате чего появилось 2 новых столбца с 108 наблюдениями (парами). Коэффициент корреляции этих столбцов составляет 0,77.

Кажется, я улучшил корреляцию таким образом. Это разрешено делать? Увеличил ли я силу объяснения независимой переменной, используя средние значения?


4
Все, что вы сделали, это пропустили данные через фильтр сглаживания. Это делается все время при обработке сигналов, и это вполне приемлемо и обычно требуется, прежде чем данные станут пригодными для использования. Устраняет шум, который всегда преобладает в электронных измерениях. Тем не менее, является ли это приемлемым для вашей конкретной проблемы, зависит от специфики того, чего вы пытаетесь достичь, и, вероятно, в значительной степени от того, сколько «шума» и «качества» содержится в ваших данных. Я только что заметил «Оба не временные ряды», поэтому я подозреваю, что то, что вы сделали, не имеет смысла, потому что изменение порядка меняет результаты
Dunk

Спасибо вам всем. Моя зависимая переменная - это серия ежемесячных результатов системы ставок (эти результаты не связаны). Независимая переменная является результатом созданного мной индикатора. Этот индикатор генерирует оценку относительно того, насколько экстремальными были результаты спортивных матчей в конкретном месяце (эти спортивные результаты не связаны). Я подозревал, что то, что я делал, было бессмысленным, хотя меня удивило, что коэффициент корреляции значительно улучшился.
user2165379 15.09.16

2
Я не уверен, но я думаю, что усреднение любых данных даст аналогичные результаты. Я думаю, что усреднение уменьшает влияние выбросов. Таким образом, корреляция должна была бы улучшиться. Хотя, я готов поспорить, что некоторые математики могут предложить хорошо подобранные данные, которые вызовут противоположный эффект, но я не ожидаю, что такие данные появятся в реальном мире.
Данк

Я не мог видеть, указали ли вы, для чего эти данные. Тем не менее, в целом, при представлении ваших данных указанной аудитории предоставление информации о том, как эти данные были получены, является хорошей практикой.
Джон Милликен

3
Какова корреляция усредненных значений, предназначенных для представления? Это, конечно, больше не разумная оценка корреляции между исходными переменными.
Glen_b

Ответы:


15

Давайте посмотрим на два вектора, первый из которых

    2 6 2 6 2 6 2 6 2 6 2 6

и второй вектор

   6 2 6 2 6 2 6 2 6 2 6 2

Вычислив корреляцию Пирсона, вы получите

cor(a,b)
[1] -1

Однако, если вы берете среднее значение последовательных пар для значений, оба вектора идентичны. Одинаковые векторы имеют корреляцию 1.

  4 4 4 4 4 4  

Этот простой пример иллюстрирует обратную сторону вашего метода.

Изменить : Чтобы объяснить это в более общем виде: Коэффициент корреляции рассчитывается следующим образом.

E[(XμX)(YμY)]σX σY

Усреднение некоторых значений и изменяет разницу между и а также разницу между и .Y X μ X Y μ YXYXμXYμY


1
Я добавил некоторую разметку, но вы можете и должны явно определять термины и . σμσ
Ник Кокс

Спасибо. Означает ли это, что мои результаты «завышены» от льгот при использовании средних значений и что всегда лучше использовать наблюдения без усреднения?
user2165379 15.09.16

Для проверки гипотез вы должны взглянуть на сами данные, а не на средние значения. В других областях описательная статистика может быть полезным инструментом. Вам также следует взглянуть на другие меры описательной статистики, такие как квантили (особенно медиана) и более высокие (централизованные) моменты, такие как дисперсия, асимметрия и эксцесс. Однако в нашем случае это бесполезно. Векторы a и b имеют одинаковые квантили, одинаковые моменты и одинаковые централизованные моменты.
Ферди

1
Усреднение имеет тенденцию увеличивать корреляции путем удаления квазислучайного рассеяния, но достаточно извращенное усреднение может подтолкнуть корреляции к нулю.
Ник Кокс

Спасибо. Таким образом, если усреднение имеет тенденцию увеличивать корреляцию в целом, это означает, что это не улучшение? Или это улучшение, потому что квазислучайный разброс убран?
user2165379 15.09.16

10

Усреднение может быть привлекательным или удобным. Это может также быть источником обмана, в худшем случае обмана, поэтому действуйте осторожно, даже когда есть четкое обоснование для усреднения.

Вот ситуация, которая не очень хорошая идея. Учтите, что при тщательном определении групп вы (как правило) можете сократить свои данные до двух итоговых точек, каждая из которых отличается от двух переменных; и тогда вы достигнете идеальной корреляции с величиной . Поздравляю или нет! Улучшение здесь является фиктивным без уважительной причины для процедуры. Вам не нужно подходить к этому крайнему случаю, чтобы приблизиться к опасности.1

В некоторых ситуациях усреднение может иметь смысл. Например, если сезонные колебания малоинтересны или не представляют интереса, то усреднение по годовым значениям создает сокращенный набор данных, в котором вы можете сосредоточиться на этих годовых значениях.

В различных областях исследователи могут быть заинтересованы в корреляции в совершенно разных масштабах, например, между безработицей и преступностью для отдельных лиц, округов, штатов, стран (замените те термины, которые имеют больше смысла).

Интерес, а зачастую и основной источник проблем с выводом, заключается в интерпретации происходящего на разных уровнях или уровнях. Например, высокая корреляция между уровнем безработицы и уровнем преступности для районов не обязательно означает, что безработные имеют более высокую склонность быть преступниками; вам нужны данные о людях, чтобы иметь четкое представление об этом. Предоставление данных может быть максимально затруднительным, поскольку данные доступны только в наименее интересном масштабе, возможно, из соображений экономии или конфиденциальности.

Отмечу также, что многие измерения, в первую очередь, часто усредняются в течение небольших временных интервалов и / или небольших пространственных интервалов, поэтому данные часто поступают усредненными в любом случае.


3
Я повторяю ответ @ Ферди, подчеркивая, что может быть много разных способов усреднения. Это создает дополнительный источник неопределенности. Трудность особенно остра при объединении небольших областей в более крупные.
Ник Кокс
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.