Коэффициент корреляции для недихотомической номинальной переменной и порядковой или числовой переменной


12

Я уже прочитал все страницы на этом сайте, пытаясь найти ответ на мою проблему, но, похоже, никто не подходит мне ...

Сначала я объясню вам, с какими данными я работаю ...

Допустим, у меня есть вектор-массив с несколькими названиями городов, по одному для каждого из 300 пользователей. У меня также есть другой вектор-массив с ответами на результаты опроса каждого пользователя или непрерывное значение для каждого пользователя.

Я хотел бы знать, существует ли коэффициент корреляции, который вычисляет корреляцию между этими двумя переменными, таким образом, номинальные и числовые / порядковые переменные

Я искал в Интернете, и на некоторых страницах они предлагают использовать коэффициент непредвиденных обстоятельств или коэффициент Крамера V или лямбда или Eta. Для каждого из этих показателей справедливо сказать, что они могут применяться для таких данных, в которых у нас есть номинальная переменная и интервал или числовая переменная. Дело в том, что поиск и поиск, пытаясь понять каждый из них, иногда пишут или смотрят примеры того, что их разумно использовать, если у вас есть дихотомическая номинальная переменная, за исключением V Крамера, в другой раз не написано никаких требований для тип данных. На многих других страницах написано, что вместо применения регрессии правильно, это правильно, но я просто хотел бы знать, есть ли такой коэффициент, как Пирсон / Спирмен для таких данных.

Я также думаю, что не совсем правильно использовать коэффициент корреляции Спирмена, поскольку города не сортируются.

Я также построил функцию Cramer'sV и Eta самостоятельно (я работаю с Matlab), но для Eta они не говорят ни о каком p-значении, чтобы увидеть, является ли коэффициент статистически значимым ...

На сайте matlabWorks есть также хороший набор инструментов, в котором написано, что нужно вычислять eta ^ 2, но требуемый ввод не понятен.

Здесь кто-то, кто сделал тест, как мой? Если вам нужно больше подробностей, чтобы понять, какие данные я использую, просто спросите меня, и я постараюсь объяснить вам лучше.


1
R2

Нет ничего плохого в регрессии, но, поскольку у нас уже есть эта мера, мы хотели бы проверить ее по-другому, просто как двойную проверку с коэффициентом корреляции .... спасибо за ответ
cristis

Вы не сказали ничего конкретного о вашей «числовой / порядковой» переменной. Что заставляет вас ставить его по порядку? Числовой?
ttnphns

потому что у меня есть переменная, полученная в результате опроса, поэтому ее диапазон равен -4,4, вы также можете рассматривать ее как интервал, но этот вид переменной опроса рассматривается в основном как порядковый, а остальные числовые, в определенной непрерывной, поскольку они особенности извлечены.
Кристис

1
СМОТРИТЕ ТАКЖЕ связанный вопрос stats.stackexchange.com/questions/23938/…
ttnphns

Ответы:


17

Номинальный против Интервала

Наиболее классической «корреляционной» мерой между номинальной и интервальной («числовой») переменной является Eta , также называемая коэффициентом корреляции, и равная корневому квадрату R одностороннего ANOVA (с p-значением = значение для ANOVA). Эту можно рассматривать как меру симметричной ассоциации, такую ​​как корреляция, потому что Эта ANOVA (с номиналом в качестве независимого, с числовым в качестве зависимого) равна следу многомерной регрессии Пиллаи (с числовым значением как независимым, набором фиктивных переменных, соответствующих номинальный как зависимый).

Более тонкий показатель - коэффициент внутриклассовой корреляции ( ICC ). В то время как Eta понимает только разницу между группами (определенную номинальной переменной) относительно числовой переменной, ICC одновременно также измеряет координацию или согласие между числовыми значениями внутри групп; иными словами, ICC (в частности, исходная несмещенная версия "сопряжения" ICC) остается на уровне значений, в то время как Eta работает на уровне статистики (группа означает против групповых отклонений).

Номинальный против Порядкового

Вопрос о «корреляционной» мере между номинальной и порядковой переменной менее очевиден. Причина трудности заключается в том, что порядковый масштаб по своей природе более «мистический» или «искривленный», чем интервальный или номинальный масштаб. Неудивительно, что статистический анализ специально для порядковых данных пока относительно плохо сформулирован.

Одним из способов может быть преобразование ваших порядковых данных в ранги, а затем вычисление Eta, как если бы ранги были интервальными данными. Значение p такой Eta = значение анализа Крускала-Уоллиса. Этот подход кажется оправданным по той же причине, что и Spearman rho используется для корреляции двух порядковых переменных. Эта логика заключается в том, что «когда вы не знаете ширину интервала на шкале, отрежьте узел Гордиана, линеаризуя любую возможную монотонность: оцените данные».

Другим подходом (возможно, более строгим и гибким) будет использование порядковой логистической регрессии с порядковой переменной в качестве DV и номинальной в качестве IV. Квадратный корень псевдо R-квадрата Нагелкерке (с p-значением регрессии) является еще одним показателем корреляции для вас. Обратите внимание, что вы можете экспериментировать с различными функциями связи в порядковой регрессии. Эта связь, однако, не является симметричной: номинальное значение предполагается независимым.

Еще один подход может заключаться в том, чтобы найти такое монотонное преобразование порядковых данных в интервал - вместо ранжирования предпоследнего абзаца - которое максимизирует R (т.е. Eta ) для вас. Это категориальная регрессия (= линейная регрессия с оптимальным масштабированием).

Еще один подход заключается в выполнении дерева классификации , такого как CHAID, с порядковой переменной в качестве предиктора. Эта процедура объединит (следовательно, это подход, противоположный предыдущему) смежные упорядоченные категории, которые не различают категории номинального предиктора. Тогда вы можете полагаться на меры ассоциации на основе хи-квадрат (такие как V Крамера), как если бы вы коррелировали номинальные и номинальные переменные.

И @Michael в своем комментарии предлагает еще один способ - специальный коэффициент под названием Theta Фримена .

Итак, мы дошли до этих возможностей: (1) ранга, затем вычислим Eta; (2) Используйте порядковый регресс; (3) Использовать категориальную регрессию («оптимально» преобразование порядковой переменной в интервал); (4) Использовать дерево классификации («оптимально», уменьшая количество упорядоченных категорий); (5) Используйте тэту Фримена.


3
PS В блоге Джерома
Англима

2
θ

2
@ Майкл спасибо, здесь я нашел статью «Еще одна заметка о мерах
ttnphns

1
Для получения дополнительной информации о тэте Фримена и пакете R, который включает статистику, см. Этот перекрестный проверенный вопрос .
Sal Mangiafico

@ttnphns Извините, не могли бы вы ответить на этот вопрос: stats.stackexchange.com/questions/363543/… Большое спасибо.
Эбрахими

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.