Корреляция Пирсона или Спирмена с ненормальными данными


113

Я получаю этот вопрос достаточно часто в своей статистической консультационной работе, поэтому я решил опубликовать его здесь. У меня есть ответ, который размещен ниже, но мне было интересно услышать, что говорят другие.

Вопрос: Если у вас есть две переменные, которые обычно не распределены, следует ли использовать rho Спирмена для корреляции?


1
Почему бы не рассчитать и представить как (г Пирсона и р Спирмена)? Их различие (или его отсутствие) предоставит дополнительную информацию.

Вопрос, сравнивающий предположения о распределении, сделанные при тестировании на значимость простого коэффициента регрессии бета и при тестировании коэффициента корреляции Пирсона (численно эквивалентного бета-версии) stats.stackexchange.com/q/181043/3277 .
ttnphns

Ответы:


77

Корреляция Пирсона является мерой линейной зависимости между двумя непрерывными случайными величинами. Он не принимает нормальности, хотя допускает конечные дисперсии и конечную ковариацию. Когда переменные являются двумерными нормальными, корреляция Пирсона обеспечивает полное описание ассоциации.

Корреляция Спирмена относится к разрядам и, таким образом, дает меру монотонной связи между двумя непрерывными случайными величинами. Это также полезно для порядковых данных и устойчиво к выбросам (в отличие от корреляции Пирсона).

Распределение любого коэффициента корреляции будет зависеть от базового распределения, хотя оба они асимптотически нормальны из-за центральной предельной теоремы.


12
ρ

3
Есть ли источник, который можно процитировать в поддержку вышеприведенного утверждения (Персонал г не предполагает нормальности)? У нас сейчас такой же аргумент в нашем отделе.

5
«Когда переменные являются двумерными нормальными, корреляция Пирсона дает полное описание ассоциации». И когда переменные НЕ являются двумерными нормальными, насколько полезна корреляция Пирсона?
Landroni

2
Этот ответ кажется довольно косвенным. «Когда переменные двумерные нормальные ...» А когда нет? Такое объяснение - то, почему я никогда не получаю статистику. "Роб, как тебе мое новое платье?" «Темный цвет подчеркивает вашу светлую кожу». "Конечно, Роб, но тебе нравится, как это подчеркивает мою кожу?" «Светлая кожа считается красивой во многих культурах». "Я знаю, Роб, но тебе это нравится?" «Я думаю, что платье красивое». "Я тоже так думаю, Роб, но разве это прекрасно для меня ?" "Ты всегда выглядишь прекрасно для меня, дорогая." вздох

1
Если вы прочитаете два предложения до этого, вы найдете ответ.
Роб Хиндман,

49

Не забудь тау Кендалла ! Роджер Ньюсон утверждал, что превосходство Кендалла τ a над корреляцией Спирмена r S является мерой корреляции на основе рангов в статье, полный текст которой теперь свободно доступен в Интернете:

Ньюсон Р. Параметры, стоящие за «непараметрической» статистикой: тау Кендалла, Сомерса D и срединные различия . Stata Journal 2002; 2 (1): 45-64.

Он ссылается (на p47) Kendall & Gibbons (1990) , как утверждают , что»... доверительные интервалы для Спирмена г S менее надежны и менее интерпретированы , чем доверительные интервалы для Кендалла т - параметров, но образец Спирмена г S гораздо легче рассчитывается без компьютера »(что уже не имеет большого значения, конечно). К сожалению, у меня нет легкого доступа к копии их книги:

Кендалл, М.Г. и Дж. Д. Гиббонс. 1990. Ранговые методы корреляции . 5-е изд. Лондон: Гриффин.


2
Я также большой поклонник тау Кендалла. Пирсон слишком чувствителен к влиятельным точкам / выбросам на мой вкус, и хотя Спирман не страдает от этой проблемы, я лично нахожу Кендалла легче понять, интерпретировать и объяснить, чем Спирман. Конечно, ваш пробег может отличаться.
Стефан Коласса

По опыту я помню, что тау Кендалла все еще работает намного медленнее (в R), чем у Спирмена. Это может быть важно, если ваш набор данных большой.
словами

35

С прикладной точки зрения меня больше интересует выбор подхода, который суммирует отношения между двумя переменными таким образом, чтобы это соответствовало моему вопросу исследования. Я думаю, что определение метода для получения точных стандартных ошибок и p-значений - это вопрос, который должен стоять на втором месте. Даже если вы решили не полагаться на асимптотику, всегда есть возможность загрузиться или изменить предположения о распределении.

Как правило, я предпочитаю корреляцию Пирсона, потому что (а) она больше соответствует моим теоретическим интересам; (б) это обеспечивает более прямую сопоставимость результатов исследований, потому что большинство исследований в моей области сообщают о корреляции Пирсона; и (c) во многих случаях существует минимальная разница между коэффициентами корреляции Пирсона и Спирмена.

Однако есть ситуации, когда я думаю, что корреляция Пирсона по необработанным переменным вводит в заблуждение.

  • Выбросы: выбросы могут иметь большое влияние на корреляции Пирсона. Многие выбросы в применяемых настройках отражают ошибки измерений или другие факторы, которые модель не предназначена для обобщения. Одним из вариантов является удаление таких выбросов. Односторонние выбросы не существуют с ро Спирмена, потому что все преобразуется в ряды. Таким образом, Спирмен является более надежным.
  • Перекошенные переменные: при сопоставлении перекошенных переменных, в частности, сильно искаженных переменных, журнал или какое-либо другое преобразование часто делает более ясными базовые отношения между этими двумя переменными (например, размер мозга в зависимости от массы тела животных). В таких настройках может случиться так, что исходная метрика в любом случае не самая значимая метрика. Ро Спирмена имеет эффект, аналогичный трансформации, путем преобразования обеих переменных в ранги. С этой точки зрения ро Спирмена можно рассматривать как быстрый и грязный подход (или, что более положительно, он менее субъективен), при котором вам не нужно думать об оптимальных преобразованиях.

В обоих вышеупомянутых случаях я бы посоветовал исследователям либо рассмотреть стратегии корректировки (например, преобразования, удаление / корректировка выбросов), прежде чем применять корреляцию Пирсона, или использовать ро Спирмена.


Проблема с преобразованием заключается в том, что в общем случае он также преобразует ошибки, связанные с каждой точкой, и, следовательно, вес. И это не решает проблему выбросов.
Скан

11

обновленный

Вопрос требует от нас выбора между методом Пирсона и Спирмена, когда ставится под сомнение нормальность . Ограниченный этой проблемой, я думаю, что следующий документ должен сообщить чье-либо решение:

r

r

Если вас попросят выбрать между Спирманом и Пирсоном, когда нарушается нормальность, стоит отстаивать бесплатную альтернативу, то есть метод Спирмена.


Ранее ..

Корреляция Спирмена является мерой корреляции ранга; он непараметрический и не основывается на предположении о нормальности.

Распределение выборки для корреляции Пирсона предполагает нормальность; в частности, это означает, что, хотя вы можете его вычислить, выводы, основанные на проверке значимости, могут быть неверными.

Как указывает Роб в комментариях, с большой выборкой это не проблема. Однако при небольших выборках, где нормальность нарушается, корреляция Спирмена должна быть предпочтительнее.

Обновление Обдумывая комментарии и ответы, мне кажется, что это сводится к обычным дебатам по непараметрическим и параметрическим тестам. Большая часть литературы, например, по биостатистике, не имеет дело с большими образцами. Я, как правило, не кавалерию, полагаясь на асимптотику. Возможно, это оправдано в этом случае, но это не совсем очевидно для меня.


1
Нет. Соотношение Пирсона НЕ принимает нормальность. Это оценка корреляции между любыми двумя непрерывными случайными величинами и является непротиворечивой оценкой при относительно общих условиях. Даже тесты, основанные на корреляции Пирсона, не требуют нормальности, если образцы достаточно велики из-за CLT.
Роб Хиндман

2
У меня сложилось впечатление, что Пирсон определен до тех пор, пока базовые распределения имеют конечные дисперсии и ковариации. Итак, нормальность не обязательна. Если базовые распределения не являются нормальными, тогда тест-статистика может иметь другое распределение, но это вторичная проблема и не относится к рассматриваемому вопросу. Это не так?

2
@Rob: Да, мы всегда можем придумать обходные пути, чтобы все работало примерно одинаково. Просто, чтобы избежать метода Спирмена - который большинство нестатиков может обработать стандартной командой. Я предполагаю, что мой совет остается использовать метод Спирмена для небольших выборок, где нормальность сомнительна. Не уверен, что это спор здесь или нет.
АРС

1
@ars. Я бы использовал Спирмена, если бы меня интересовали монотонные, а не линейные ассоциации, или если были выбросы или высокий уровень асимметрии. Я бы использовал Пирсона для линейных отношений, если нет выбросов. Я не думаю, что размер выборки имеет значение при выборе.
Роб Хиндман

3
@Rob: ОК, спасибо за обсуждение. Я согласен с первой частью, но сомневаюсь в последней и включил бы, что размер играет роль только потому, что обычные асимптотики не применяются. Например, Kowalski 1972 имеет довольно хороший обзор истории вокруг этого и приходит к выводу, что корреляция Пирсона не так сильна, как предполагалось. Смотрите: jstor.org/pss/2346598
АРС
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.