Насколько устойчив коэффициент корреляции Пирсона к нарушениям нормальности?

Данные по определенным переменным типам имеют тенденцию быть ненормальными при измерении в определенных группах населения (например, уровни депрессии в группе людей с серьезным депрессивным расстройством). Учитывая, что Пирсона предполагает нормальность, насколько надежна статистика теста в условиях ненормальности?

У меня есть ряд переменных, для которых я хотел бы получить коэффициенты корреляции, но асимметрия Z для некоторых из этих переменных значительна при p <.001 (и это для сравнительно небольшой выборки). Я пробовал некоторые преобразования, но улучшения в дистрибутивах в лучшем случае только незначительны.

Я собираюсь придерживаться непараметрического анализа? И не только для корреляций, но и для других видов анализа?

correlation

— археоптерикс
источник

Подождите, коэффициент корреляции Пирсона предполагает нормальность? Я не думаю, что это так, и я использовал его на ненормальных данных. Это просто не устойчиво к некоторым вещам, которые происходят чаще в некоторых ненормальных ситуациях, но есть много ненормальных ситуаций, где я не вижу проблем с использованием коэффициента корреляции Пирсона.

— Дуглас Заре

Корреляция Пирсона предполагает нормальность - это то, что утверждают многие статистические тексты. В другом месте я слышал, что нормальность - ненужное предположение для Пирсона. Когда я запускаю анализы, результаты Пирсона и Спирмена дают относительно похожие результаты.

— Археоптерикс,

Ранговый коэффициент корреляции Спирмена - это коэффициент корреляции Пирсона, применяемый к ненормальным рейтингам. Я до сих пор не знаю, в каком смысле вы считаете, что Пирсон требует нормальности. Возможно, вы можете сказать несколько дополнительных вещей, если вы используете его в многомерном нормальном распределении.

— Дуглас Заре

Я просто использую это для простых двумерных корреляций. Я не уверен, почему утверждается, что нормальность требуется. Тексты статистики, которые я читал, всегда перечисляют нормальность как предположение о корреляции Пирсона и советуют использовать Спирмена для условий, в которых имеет место ненормальность.

— Археоптерикс

Ответы:

Краткий ответ: очень ненадежный. Корреляция является мерой линейной зависимости , и когда одна переменная не может быть записана как линейная функция другой (и все еще имеет заданное предельное распределение), вы не можете иметь идеальную (положительную или отрицательную) корреляцию. Фактически, возможные значения корреляций могут быть строго ограничены.

Проблема заключается в том, что в то время как соотношение населения всегда между и , точным диапазоном достижимо в значительной степени зависит от предельных распределений. Быстрое доказательство и демонстрация: $-1$ $1$

Достижимый диапазон корреляции

Если имеет функцию распределения и маргинальные функции распределения и , существуют некоторые довольно хорошие верхние и нижние оценки для , $(X,Y)$ $H$ $F$ $G$ $H$ называется границами Фреше. Это

H_{-} (x, y) \leq H (x, y) \leq H_{+} (x, y),

$H_-(x,y) \leq H(x,y) \leq H_+(x,y),$

(Попробуйте доказать это; это не очень сложно.)

\begin{aligned} H_{-} (x, y) & = max (F (x) + G (y) - 1, 0) \\ H_{+} (x, y) & = min (F (x), G (y)) . \end{aligned}

$\begin{aligned} H_-(x,y) &= \max(F(x) + G(y)-1, 0)\\ H_+(x,y) &= \min(F(x), G(y)). \end{aligned}$

Границы сами являются функциями распределения. Пусть имеет равномерное распределение. Верхняя граница является функцией распределения $U$ а нижняя граница является функцией распределения . $(X,Y)=(F^-(U), G^-(U))$ $(F^-(-U), G^-(1-U))$

Теперь, используя этот вариант по формуле для ковариации, мы видимчто мы получаем максимальное и минимальное соотношениекогда равна и соответственно, то есть, когда представляет собой (положительно или отрицательно, соответственно) монотонная функция .

Cov (X, Y) = \iint H (x, y) - F (x) G (y) d x d y,

$\mathop{\textrm{Cov}}(X,Y)=\iint H(x,y)-F(x)G(y) \mathop{\mathrm d\!}x \mathop{\mathrm d\!}y,$

H

$H$

H_{+}

$H_+$

H_{-}

$H_-$

Y

$Y$

X

$X$

Примеры

Вот несколько примеров (без доказательств):

Когда и нормально распределены, мы получаем максимум и минимум, когда $X$ $Y$ имеет обычное двумерное нормальное распределениегде записывается в виде линейной функции . То есть мы получаем максимум для $(X,Y)$ $Y$ $X$ Здесь оценки являются (конечно)и, независимотогокаких средств и дисперсийиимеют.
$Y = μ_{Y} + σ_{Y} \frac{X - μ_{X}}{σ_{X}} .$ $Y=\mu_Y+\sigma_Y \frac{X-\mu_X}{\sigma_X}.$ $-1$ $1$ $X$ $Y$
Когда и имеют логнормальные распределения, нижняя граница никогда не будет достигнута, поскольку это будет означать, что может быть записано для некоторого $X$ $Y$ $Y$ $Y=a-bX$ и положительного , а никогда не может быть отрицательным. Существуют (немного некрасивые) формулы для точных границ, но позвольте мне привести специальный случай. Когда и имеют стандартные логнормальные распределения (то есть, когда они возведены в степень, они стандартно нормальны), достижимый диапазон составляет $a$ $b$ $Y$ $X$ $Y$ . (В общем, верхняя граница также ограничена.) $[-1/e, 1]\approx [-0.37, 1]$
Когда имеет стандартное нормальное распределение, а имеет стандартное логнормальное распределение, границы корреляции составляют $X$ $Y$
$\pm \frac{1}{\sqrt{e - 1}} \approx 0.76.$ $\pm \frac{1}{\sqrt{e-1}} \approx 0.76.$

Обратите внимание, что все оценки даны для корреляции населения . Корреляция выборки может легко выходить за границы, особенно для небольших выборок (быстрый пример: размер выборки 2).

Оценка корреляционных границ

На самом деле довольно легко оценить верхнюю и нижнюю границы корреляции, если вы можете моделировать из маргинальных распределений. Для последнего примера выше мы можем использовать этот код R:

> n = 10^5      # Sample size: 100,000 observations
> x = rnorm(n)  # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769

Если у нас есть только фактические данные и мы не знаем предельных распределений, мы все равно можем использовать вышеуказанный метод. Это не проблема, что переменные являются зависимыми, пока пары наблюдений являются зависимыми. Но это помогает иметь много пар наблюдения.

Преобразование данных

$Y$ $X$

То, что вы действительно делаете здесь, - это создание новой меры зависимости, которая не зависит от предельных распределений; то есть вы создаете меру зависимости на основе связки . Там уже существует несколько таких мер, Спирмена  ρ и Кендалла  τ причем наиболее хорошо известны. (Если вы действительно заинтересованы в понятиях зависимости, неплохо было бы заглянуть в связки.)

В заключение

Несколько заключительных мыслей и советов: один взгляд на корреляцию имеет одну большую проблему: он заставляет вас перестать думать. С другой стороны, если посмотреть на точечные диаграммы, вы часто начинаете думать. Поэтому мой главный совет - изучить графики рассеяния и попытаться смоделировать зависимость явно.

Тем не менее, если вам нужна простая корреляционная мера, я бы просто использовал ρ Спирмена  (и соответствующий доверительный интервал и тесты). Его ассортимент не ограничен. Но следует помнить о немонотонной зависимости. В статье Википедии о корреляции есть несколько хороших графиков, иллюстрирующих потенциальные проблемы.

— Карл Ове Хуфтхаммер
источник

+1 Этот очень хороший вклад явно решает несколько повторяющихся вопросов, связанных с корреляциями. Я особенно ценю замечания в первом заключительном абзаце о прекращении / начале мышления.

— whuber

Останется ли ненадежность даже асимптотически? Если да, то неверно ли вики, говоря, что «[Распределение Стьюдента для простого преобразования r] также выполняется приблизительно, даже если наблюдаемые значения не являются нормальными, при условии, что размеры выборки не очень малы»?

— макс

Как выглядят распределения этих переменных (кроме перекосов)? Если единственной ненормальностью является асимметрия, то должна помочь какая-то трансформация. Но если эти переменные имеют много общего, то никакие преобразования не приведут их к нормальному состоянию. Если переменная не является непрерывной, то же самое верно.

Насколько надежна корреляция с нарушениями? Взгляните на квартет Анскомба. Это хорошо иллюстрирует несколько проблем.

Что касается других видов анализа, это зависит от анализа. Например, если перекошенные переменные являются независимыми переменными в регрессии, проблема может вообще не возникать - вам нужно посмотреть на остатки.

— Питер Флом - Восстановить Монику
источник

Некоторые переменные также имеют проблемы с эксцессом, но асимметрия является самой большой проблемой. Я пробовал преобразования квадратного корня и лога для проблемных переменных, но они не сильно улучшаются. На самом деле, дистрибутивы выглядят почти одинаково, но с большим количеством набранных очков.

— Археоптерикс

Это кажется очень странным. Можете ли вы опубликовать среднее значение, медиану, асимметрию, эксцесс рассматриваемой переменной? Или (даже лучше) график плотности этого?

— Питер Флом - Восстановить Монику

Независимо от того, является ли распределение (X, Y) двумерным нормальным или нет, корреляция Пирсона является мерой степени линейности. Распределение вероятностей для выборочной оценки будет зависеть от нормальности.

— Майкл Р. Черник

Эти переменные не очень асимметричны. Вы можете оставить их как есть.

— Питер Флом - Восстановить Монику

Не беспокойтесь о значимости здесь. Как правило, перекос и эксцесс, который составляет <-2 или> 2, считается, возможно, нуждающимся в трансформации. Еще лучше взглянуть на графики, например, график нормального квантиля и график плотности с ядром, чтобы увидеть, что происходит.

— Питер Флом - Восстановить Монику