Почему корреляция не очень полезна, когда одна из переменных является категориальной?


14

Это небольшая проверка, пожалуйста, помогите мне понять, неправильно ли я понимаю эту концепцию и каким образом.

У меня есть функциональное понимание корреляции, но я чувствую себя немного цепко, чтобы действительно уверенно объяснить принципы, лежащие в основе этого функционального понимания.

Насколько я понимаю, статистическая корреляция (в отличие от более общего использования термина) - это способ понять две непрерывные переменные и то, как они растут или не имеют тенденцию к росту или падению подобными способами.

Причина, по которой вы не можете выполнить корреляции, скажем, для одной непрерывной и одной категориальной переменной, заключается в том, что невозможно вычислить ковариацию между этими двумя значениями, поскольку категориальная переменная по определению не может дать среднее значение и, следовательно, не может даже войти в первую этапы статистического анализа.

Это правильно?


2
Вот типичные слайды лекций из класса, который я преподаю, в основном касающегося корреляции населения (не выборки) и ковариации people.virginia.edu/~trb5me/3120_slides/5/5.2/5.2.pdf
Тейлор

3
Простая причина, представьте, что вы спрашиваете людей "какой ваш любимый цвет?" и они отвечают «красный», «зеленый», «синий», «оранжевый», «желтый», ..., что закодировано в вашем наборе данных как 1, 2, 3, ... Далее, вы вычисляете коэффициент корреляции между такая переменная с удовлетворением работой и получит значение 0,21. Что это означает? Не могли бы вы дать какую-либо значимую интерпретацию?
Тим

2
Тесно связаны между собой (возможно , даже дубликат?) - Корреляция между номинальным (IV) и непрерывный (DV) переменная
Silverfish

@ Тейлор: Что мы используем, когда обе переменные являются непрерывными / числовыми, но одна из них является стохастической, а другая нет, например, часы, изученные против ГПД?
MSIS

Ответы:


16

Корреляция - это стандартизированная ковариация, то есть ковариация x и y деленная на стандартное отклонение x и y . Позвольте мне проиллюстрировать это.

Грубо говоря, статистику можно суммировать как подгонку моделей к данным и оценку того, насколько хорошо модель описывает эти точки данных ( результат = модель + ошибка ). Один из способов сделать это - вычислить суммы отклонений или остатков (res) из модели:

res=(xix¯)

Многие статистические расчеты основаны на этом, в т.ч. коэффициент корреляции (см. ниже).

Вот примерный набор данных R(остатки обозначены красными линиями, а их значения добавлены рядом с ними):

X <- c(8,9,10,13,15)  
Y <- c(5,4,4,6,8)

введите описание изображения здесь

X=11Y=5.4SS

SS=(xix¯)(xix¯)=(xix¯)2

n1s2

s2=SSn1=(xix¯)(xix¯)n1=(xix¯)2n1

Для удобства можно взять квадратный корень выборочной дисперсии, который известен как стандартное отклонение выборки:

s=s2=SSn1=(xix¯)2n1

Теперь ковариация оценивает, связаны ли две переменные друг с другом. Положительное значение указывает, что когда одна переменная отклоняется от среднего значения, другая переменная отклоняется в том же направлении.

covx,y=(xix¯)(yiy¯)n1

r

r=covx,ysxsy=(x1x¯)(yiy¯)(n1)sxsy

r=0.87XY

enter image description here

Короче говоря, да, ваши чувства верны, но я надеюсь, что мой ответ может дать некоторый контекст.


1
Это очень полезно - пытаясь углубить свое собственное понимание, я полагаю, что если я не смогу достаточно объяснить это кому-то без опыта в статистике, я не пойму это так, как я думал.
Toof

8

Вы (почти) правы. Ковариация (и, следовательно, также корреляция) может быть вычислена только между числовыми переменными. Это включает в себя непрерывные переменные, а также дискретные числовые переменные.

Категориальные переменные могут использоваться для вычисления корреляции только с учетом полезного числового кода для них, но это вряд ли даст практическое преимущество - возможно, это может быть полезно для некоторых двухуровневых категориальных переменных, но другие инструменты, вероятно, будут более подходящими.


В дополнение к точке Пера коэффициент корреляции моментов произведения Пирсона представляет степень линейной зависимости между двумя переменными. Непараметрические показатели, такие как число Спирмена или тау Кендалла, характеризуют склонность к увеличению или уменьшению X и Y (ведут себя до такой степени, как монотонные отношения, которые не обязательно должны быть линейными.
Michael R. Chernick

@Pere: Что мы используем, когда у нас есть две непрерывные переменные, но только одна из них является стохастической, например, часы, используемые против веса.?
MSIS

1
@MSIS - это должен быть другой вопрос, но можно использовать корреляцию, даже если одна переменная не является случайной.
Пере

1
Я спросил, в случае , если вы заинтересованы:: @Pere stats.stackexchange.com/questions/435257/...
MSIS

3

Нет ничего плохого в вычислении корреляций, когда одна из переменных является категориальной. Сильная положительная корреляция подразумевает, что включение вашей категориальной переменной (или выключение в зависимости от вашего соглашения) вызывает увеличение отклика. Например, это может произойти при расчете логистической регрессии, когда переменные являются категориальными: прогнозирование вероятности сердечного приступа с учетом сопутствующих заболеваний пациента, таких как диабет и ИМТ. В этом случае ИМТ имел бы очень сильную корреляцию с сердечными приступами. Вы пришли бы к выводу, что это не полезно?

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.