Корреляции между непрерывными и категориальными (номинальными) переменными


42

Я хотел бы найти корреляцию между непрерывной (зависимой переменной) и категориальной (номинальной: пол, независимая переменная) переменной. Непрерывные данные обычно не распространяются. Прежде чем я вычислил его с помощью Спирмена . Однако мне сказали, что это неправильно.ρ

При поиске в интернете я обнаружил, что коробочный график может дать представление о том, насколько они связаны; Тем не менее, я искал количественное значение, такое как коэффициент момента произведения Пирсона или Спирмена ρ. Можете ли вы помочь мне, как это сделать? Или сообщите, какой метод будет уместным?

Будет ли Точка Бизериана Коэффициент правильным вариантом?


Обычно, никто не может советовать только на основе формата данных! Что представляют собой данные и чего вы хотите достичь с помощью своего анализа?
kjetil b halvorsen

1
Спасибо kjetil, я хотел бы сравнить связь между полом и другими непрерывными переменными. Просто знать, какие непрерывные переменные умеренно / сильно коррелированы, а какие нет.
Г-н Фердоус Вахид

1
Похоже, дубликат stats.stackexchange.com/questions/25229/… Можете ли вы сказать нам, если ответы на этот вопрос поможет вам?
kjetil b halvorsen

Да, мой вопрос похож на это. Тем не менее, я получил отзыв, в котором рецензент указал, что Спирмена не подходит. Мой размер выборки составляет 31. Согласно ответу (ссылка предоставлена), ненормальный не будет проблемой, и любой метод корреляции может быть использован (Spearman / Pearson / Point-Biserial) для большого набора данных. Будет ли это верно и для небольшого набора данных? Кстати, пол не является искусственно созданной дихотомической номинальной шкалой. Приведенная выше ссылка должна использовать коэффициент бизериальной корреляции. ρ
Г-н Фердоус Вахид

3
Соотношение между номинальной и интервальной или порядковой переменной stats.stackexchange.com/q/73065/3277
ttnphns

Ответы:


25

Рецензент должен был сказать вам, почему Spearman не подходит. Вот одна из версий этого: Пусть данные будут ( Z i , I i ), где Z - измеренная переменная, а I - гендерный показатель, скажем, 0 (мужчина), 1 (женщина). Затем ρ Спирмена вычисляется на основе рангов Z , I соответственно. Поскольку для индикатора I возможны только два значения, связей будет много, поэтому эта формула не подходит. Если вы замените ранг средним рангом, вы получите только два разных значения: одно для мужчин, другое для женщин. Тогда рρ(Zi,Ii)ZIρZ,IIρстанет в основном некоторой измененной версией средних рангов между двумя группами. Было бы проще (более понятным) просто сравнить средства! Другой подход заключается в следующем.

Пусть - наблюдения непрерывной переменной среди мужчин, Y 1 , ... , Y m - среди женщин. Теперь, если распределения X и Y одинаковы, то P ( X > Y ) будет 0,5 (предположим, что распределение является чисто непрерывным, поэтому нет связей). В общем случае определите θ = P ( X > Y ) где среди женщин. Можем ли мы оценить θX1,,XnY1,,YmXYP(X>Y)

θ=P(X>Y)
- случайная ничья среди мужчин, YXYθ по нашей выборке? Сформируйте все пары (предположим, что нет связей) и посчитайте, сколько у нас «мужчина больше» ( X i > Y j ) ( M ) и сколько «женщина больше» ( X i < Y j ) ( W ). Тогда одной примерной оценкой θ является M(Xi,Yj)Xi>YjMXi<YjWθ Это одна разумная мера корреляции! (Если есть только несколько связей, просто игнорируйте их). Но я не уверен, как это называется, если у него есть имя. Этот может быть близко: https://en.wikipedia.org/wiki/Goodman_and_Kruskal%27s_gamma
MM+W

5
Ранговая корреляция Спирмена - это просто корреляция Пирсона, применяемая к рангу числовой переменной и значениям исходной двоичной переменной (ранжирование здесь не влияет). Таким образом, ро Спирмена является ранговым аналогом точечно-бизериальной корреляции. Я не вижу никаких проблем в использовании описательного ро Спирмена в этой ситуации.
Майкл М

Майкл Майер: Да, это может сработать, может быть, но есть ли в этом смысл? Это не дает информацию, которая не содержится в некоторой разнице в средствах! и это более понятно.
kjetil b halvorsen

1
Разве разница в рангах намного проще интерпретировать как ро Спирмена? Даже если так, вы бы назвали Спирмена неправильным? Грустно, что мы не видим рассуждения рецензентов.
Майкл М

1
То, что вы предлагаете, приятно. Похоже, это связано со статистикой теста в тесте Уилкоксона с двумя выборками, который сам по себе похож на ранговую корреляцию Кендалла между числовым результатом и переменной двоичной группы.
Майкл М

1
@ tao.hong В каком смысле вы считаете это асимметричным? При переключении метки (мужчины / женщины), то и и thetas ; переключатели таким же образом, к 1 - θ . θθ^1θ
kjetil b halvorsen

8

У меня сейчас та же проблема. Я пока не видел, чтобы кто-то ссылался на это, но я исследую точечно-бисериальную корреляцию, которая построена на коэффициенте корреляции Пирсона. Это среднее значение для непрерывной переменной и дихотомической переменной.

Краткое чтение: https://statistics.laerd.com/spss-tutorials/point-biserial-correlation-using-spss-statistics.php

Я использую R, но я считаю, что SPSS имеет отличную документацию.


1
Отличная ссылка для нахождения корреляции между непрерывной переменной и дихотомической переменной! Тем не менее, перечисленные допущения являются довольно сильными.
SUNDONG

1

Казалось бы, наиболее подходящим сравнением будет сравнение медиан (как это ненормально) и распределения между бинарными категориями. Я бы предложил непараметрический критерий Манна-Уитни ...


6
В то время как Манн-Уитни был бы способом определения смещения местоположения в переменной (или, действительно, более общих формах стохастического доминирования) по бинарной категориальной переменной, Манн-Уитни не сравнивает медианы, по крайней мере, без дополнительных предположений.
Glen_b

1

Для указанной проблемы может помочь измерение площади под кривой кривой характеристики оператора приемника.

Я не эксперт в этом, поэтому я стараюсь быть проще. Пожалуйста, прокомментируйте любую ошибку или неправильную интерпретацию, чтобы я мог ее изменить.

xyxxx

xx

xx

Вышеупомянутое утверждение вычисляется с областью под кривой.

Пример хорошей корреляции (справа) и справедливой антикорреляции (слева) Пример хорошей корреляции (справа) и справедливой антикорреляции (слева).


1
Добро пожаловать в резюме! Ваш ответ слишком короток, и, похоже, он не помогает найти: «корреляцию между непрерывной (зависимой переменной) и категориальной (номинальной: пол, независимая переменная) переменной» . Не могли бы вы отредактировать свой ответ, указав, как AUROC должен этого достичь?
Франс Роденбург

-3

Вы должны использовать линейную тенденцию, альтернативную независимости. если вы не знаете этого, вы можете изучить введение в анализ категориальных данных на странице 41.


4
Уже есть принятый ответ. И непонятно, чему способствует ваш ответ. Не могли бы вы объяснить больше? Полагаю, вы ссылаетесь на введение Агрести в анализ категориальных данных. Пожалуйста, предоставьте полную цитату.
TEG - Восстановить Монику
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.