Что может вызвать большие различия в коэффициенте корреляции между корреляцией Пирсона и Спирмена для данного набора данных?


22

Коэффициент Пирсона между двумя переменными довольно высок (г = 0,65). Но когда я ранжирую значения переменных и запускаю корреляцию Спирмена, значение коэффициента намного ниже (r = .30).

  • Какова интерпретация этого?

5
Обычно хорошей идеей является показать диаграмму рассеяния данных перед интерпретацией коэффициента корреляции.
ЧЛ

Какой у вас размер выборки?
Джером Энглим

Ответы:


37

Почему большая разница

  • Если ваши данные нормально распределены или распределены равномерно, я думаю, что соотношение Спирмена и Пирсона должно быть довольно схожим.

  • Если они дают очень разные результаты, как в вашем случае (.65 против .30), я предполагаю, что вы отклонили данные или выбросы, и что выбросы приводят к тому, что корреляция Пирсона больше, чем корреляция Спирмена. Т.е. очень высокие значения на X могут сочетаться с очень высокими значениями на Y.

  • @chl на месте. Ваш первый шаг должен смотреть на график рассеяния.
  • В общем, такая большая разница между Пирсоном и Спирменом - это красный флаг, который предполагает, что
    • корреляция Пирсона не может быть полезным обобщением связи между вашими двумя переменными, или
    • Вы должны преобразовать одну или обе переменные, прежде чем использовать корреляцию Пирсона, или
    • Вы должны удалить или скорректировать выбросы, прежде чем использовать корреляцию Пирсона.

Смежные вопросы

Также посмотрите эти предыдущие вопросы о различиях между корреляцией Спирмена и Пирсона:

Простой R Пример

Ниже приведено простое моделирование того, как это может произойти. Обратите внимание, что приведенный ниже случай включает в себя один выброс, но вы можете получить аналогичные эффекты с несколькими выбросами или искаженными данными.

# Set Seed of random number generator
set.seed(4444)

# Generate random data
# First, create some normally distributed correlated data
x1 <- rnorm(200)
y1 <- rnorm(200) + .6 * x1

# Second, add a major outlier
x2 <- c(x1, 14)
y2 <- c(y1, 14)

# Plot both data sets
par(mfrow=c(2,2))
plot(x1, y1, main="Raw no outlier")
plot(x2, y2, main="Raw with outlier")

plot(rank(x1), rank(y1), main="Rank no outlier")
plot(rank(x2), rank(y2), main="Rank with outlier")

# Calculate correlations on both datasets
round(cor(x1, y1, method="pearson"), 2)
round(cor(x1, y1, method="spearman"), 2)
round(cor(x2, y2, method="pearson"), 2)
round(cor(x2, y2, method="spearman"), 2)

Что дает этот вывод

[1] 0.44
[1] 0.44
[1] 0.7
[1] 0.44

Корреляционный анализ показывает, что без выброса Спирман и Пирсон довольно похожи, а с довольно экстремальным выбросом корреляция совершенно иная.

На графике ниже показано, как обработка данных как рангов устраняет экстремальное влияние выброса, что приводит к тому, что Spearman становится похожим как с выбросом, так и без него, тогда как Пирсон сильно отличается при добавлении выброса. Это подчеркивает, почему Спирмена часто называют крепким.

введите описание изображения здесь

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.