Можно ли строить линию регрессии для ранжированных данных (корреляция Спирмена)?


12

У меня есть данные, для которых я рассчитал корреляцию Спирмена и хочу визуализировать их для публикации. Зависимая переменная ранжируется, независимая переменная - нет. То, что я хочу визуализировать, является скорее общей тенденцией, чем фактическим наклоном, поэтому я оценил независимую и применил корреляцию / регрессию Спирмена. Но как только я подготовил свои данные и собирался вставить их в свою рукопись, я наткнулся на это утверждение (на этом сайте ):

Вы почти никогда не будете использовать линию регрессии ни для описания, ни для предсказания, когда будете делать ранговую корреляцию Спирмена, поэтому не рассчитывайте эквивалент линии регрессии .

и позже

Вы можете отобразить данные ранговой корреляции Спирмена так же, как и для линейной регрессии или корреляции. Однако не ставьте линию регрессии на графике ; было бы неправильно вводить линию линейной регрессии на график, когда вы анализируете ее с помощью ранговой корреляции.

Дело в том, что линии регрессии не сильно отличаются от того, когда я не ранжирую независимую и не вычисляю корреляцию Пирсона. Тенденция та же, но из-за непомерных сборов за цветную графику в журналах я использовал монохромное представление, и фактические точки данных перекрываются настолько, что их невозможно распознать.

Конечно, я мог бы обойти это путем создания двух разных графиков: одного для точек данных (ранжированных) и одного для линии регрессии (не ранжированных), но если окажется, что источник, который я цитировал, неверен или проблема не так проблематично в моем случае, это облегчит мою жизнь. (Я тоже видел этот вопрос , но он мне не помог.)

Изменить для дополнительной информации:

Независимая переменная на оси x представляет количество признаков, а зависимая переменная на оси y представляет собой ранжирование алгоритмов классификации при сравнении их производительности. Теперь у меня есть несколько алгоритмов, которые в среднем сравнимы, но то, что я хочу сказать на своем графике, выглядит примерно так: «Хотя классификатор A становится лучше, чем больше функций присутствует, тем лучше классификатор B, когда меньше функций».

Изменить 2, чтобы включить мои графики:

Ряды алгоритмов нанесены на график в зависимости от количества функций введите описание изображения здесь

Ряды алгоритмов построены в зависимости от ранжированного числа признаков введите описание изображения здесь

Итак, повторим вопрос из заголовка:

Можно ли построить линию регрессии для ранжированных данных корреляции / регрессии Спирмена?


Сколько категорий в рейтинге? Вы проверяли предположение о пропорциональности? Есть много исследователей, которые прекрасно подходят для обработки порядковых данных (например, ранжирования) как непрерывных. Иногда, если есть много категорий, это имеет смысл.
robin.datadrivers

1
Есть семь рангов, они используются для теста Фридмана
Sentry

Ответы:


9

Ранг-корреляция может быть использована для определения монотонной связи между переменными, как вы заметили; как таковой, вы обычно не строите линию для этого.

Существуют ситуации, когда имеет смысл использовать ранговые корреляции для фактического соответствия строк числовому-y против числового-x, будь то Кендалл или Спирмен (или некоторые другие). Смотрите обсуждение (и, в частности, последний сюжет) здесь .

Это не ваша ситуация, хотя. В вашем случае я был бы склонен просто представить диаграмму рассеяния исходных данных, возможно, с гладкой взаимосвязью (например, с помощью LOESS).

Вы ожидаете, что отношения будут монотонными; Возможно, вы попытаетесь оценить и построить монотонные отношения. [Там есть R-функция обсуждается здесь , что может поместиться изотонической регрессия. - в то время как пример есть унимодален не изотонический, функция может сделать изотонические припадки]

Вот пример того, что я имею в виду:

введите описание изображения здесь

Сюжет показывает монотонную связь между х и у; красная кривая - это лёссовое сглаживание (в данном случае сгенерированное в R с помощью scatter.smooth), которое также оказывается монотонным (есть способы получить сглаживание, которое гарантированно будет монотонным, но в этом случае сглаживание лёсса по умолчанию было монотонным, поэтому Я не чувствовал необходимости беспокоиться.

введите описание изображения здесь
График ранга (y) против ранга (x), что указывает на монотонное отношение. Зеленая линия показывает ранги подгоночных значений кривой Лёсса против ранга (x).

y^

Если вы не отображаете ничего, кроме ранга (Y) против X, я думаю, что я бы избегал использовать линии на графиках; насколько я вижу, они не передают большую ценность выше коэффициента корреляции. И уже сказал, что вас интересует только тренд.

[Я не знаю, что неправильно строить линию регрессии на графике «ранжирование-против-ранжирование-х», трудность заключается в ее интерпретации.]


Спасибо, ваш ответ хороший и хорошо объяснил. Однако это заставило меня понять, что я, возможно, пропустил важную информацию. Это все еще верно с дополнительной информацией, которую я предоставил? Графики следуют позже сегодня, когда я за своим рабочим компьютером.
Часовой

Взгляните на мое обновление и посмотрите, считаете ли вы что-либо из этого полезным.
Glen_b

Да, это имеет значение, но больше в общем смысле. Я также согласен с тем, что «неправильность» проистекает из трудности интерпретации сюжета. Я боюсь, что люди всегда будут предполагать, что я хочу предсказать рейтинг по функции, даже если я заявляю, что я хочу показать только тенденцию .
Часовой

Глядя на свои графики, вы показываете рейтинги, но есть ли у вас оригинальные показатели эффективности, на которых основывались рейтинги?
Glen_b

Да, но они не могут быть использованы здесь, поверьте мне. Основное внимание в моем исследовании уделяется сравнению алгоритмов с использованием теста Фридмана, который ранжирует их. Существует несколько наборов данных с сильно различающимися диапазонами производительности, поэтому здесь интересно только сравнение между ними.
Часовой

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.