Сравнение ранжированных списков

Предположим, что две группы, включающие в себя и ранжируют набор из 25 элементов от наиболее до наименее важных. Каковы лучшие способы сравнить эти рейтинги? $n_1$ $n_2$

Ясно, что можно сделать 25 U-тестов Манна-Уитни, но это приведет к 25 интерпретируемым результатам, что может быть слишком много (и, при строгом использовании, поднимает вопросы множественных сравнений). Мне также не совсем ясно, что ряды удовлетворяют всем предположениям этого теста.

Я также был бы заинтересован в указателях литературы по рейтингу против рейтинга.

Некоторый контекст: Все эти 25 пунктов относятся к образованию, и эти две группы являются разными типами педагогов. Обе группы маленькие.

РЕДАКТИРОВАТЬ в ответ на @ttnphns:

Я не хотел сравнивать общий рейтинг предметов в группе 1 с группой 2 - это было бы константой, как указывает @ttnphns. Но рейтинг в группе 1 и группе 2 будет отличаться; то есть группа 1 может ранжировать пункт 1 выше, чем группа 2.

Я мог сравнить их, пункт за элементом, получить среднее или срединное звание каждого элемента и сделать 25 тестов, но я подумал, есть ли лучший способ сделать это.

ranking group-differences

— Питер Флом - Восстановить Монику
источник

Если каждый человек оценил 25 пунктов, то сумма по 25 переменным является константой (325). Учитывая , что то , что вы имеете в виду говоря the best ways to compare these rankings- то , что тип разницы м.т. 2 групп , которые Вы хотели бы знать?

— ttnphns

Может быть, рассчитать медиану Кемени для каждой группы? Я сам этого не делал и не знаю, можно ли сравнить статистические результаты по двум результатам (т.е. с учетом населения).

— ttnphns

Другим вариантом может быть повторная мера порядковой регрессии (где взаимодействие между групповым фактором и коэффициентом rm будет вашим интересом); это может быть сделано через модель GEE с многочленным распределением и логитом. Но, опять же, поскольку сумма по 25 элементам является постоянной величиной, я не могу сейчас сказать, является ли она математически достоверной.

— ttnphns

У меня нет книги о себе, но «Теория и практика измерений» Д. Хэнд обсуждает некоторые вопросы, которые звучат примерно так. Что конкретно вы хотите знать о «разнице» в рейтинге. Например, не могли бы вы сначала создать совокупный рейтинг для каждой группы, а затем взять корреляцию рангов?

— Corone

@PeterFlom Вы, наконец, нашли решение для сравнения рангов? Если да, не могли бы вы опубликовать это? :)

— Марк Хекманн

Ответы:

Резюме

Я делюсь своими мыслями в разделе « Детали ». Я думаю, что они полезны для определения того, чего мы действительно хотим достичь.

Я думаю, что главная проблема здесь в том, что вы не определили, что означает сходство рангов. Поэтому никто не знает, какой метод измерения разницы между рангами лучше.

По сути, это оставляет нам неоднозначно выбирать метод, основанный на догадках.

Что я действительно предлагаю, так это сначала определить цель математической оптимизации. Только тогда мы будем уверены, действительно ли мы знаем, чего хотим.

Если мы этого не сделаем, на самом деле не знаю, чего мы хотим. Мы могли бы почти знать , что мы хотим, но почти зная знать . $\ne$

Мой текст в деталях по сути является шагом к достижению математического определения сходства рангов . Как только мы это сделаем, мы сможем уверенно двигаться вперед, чтобы выбрать лучший метод измерения подобия.

Детали

Основано на одном из ваших комментариев:

« Цель состоит в том, чтобы увидеть, различаются ли рейтинги двух групп », Питер Флом.

Чтобы ответить на это, строго интерпретируя цель:

Ранги различаются, если для любого элемента существует такой , что , где - ранг элемента группы а - ранг того же пункта, но по группе . $i \in \{1,2,\ldots,25\}$ $i$ $a_i \ne b_i$ $a_i$ $i$ $a$ $b_i$ $b$
Иначе, ряды не отличаются.

Но я не думаю, что вы действительно хотите эту строгую интерпретацию. Поэтому я думаю, что вы действительно хотели сказать:

Насколько отличаются ранги групп и ? $a$ $b$

Одно из решений здесь - просто измерить минимальное расстояние редактирования . Т.е. каково минимальное количество правок, которые необходимо выполнить в ранжированном списке группы , чтобы оно стало идентичным таковому для группы . $a$ $b$

Редактирование может быть определено как замена двух элементов, а стоимость стоит пунктов в зависимости от того, сколько прыжков необходимо. Таким образом, если элемент необходимо поменять местами с пунктом (чтобы получить идентичные ранги между группами из групп и ), тогда стоимость этого редактирования составляет . $n$ $1$ $3$ $a$ $b$ $3$

Но подходит ли этот метод? Чтобы ответить на это, давайте посмотрим на это немного глубже:

$a,b$ $3$ $c,d$ $123$ $a,b$ $c,d$ $c,d$
Предполагается, что стоимость каждого редактирования является линейной по отношению к количеству прыжков. Это правда для нашего домена приложения? Может ли быть так, что логистические отношения более подходят? Или экспоненциальный ?
$1$ $5$

После того, как мы рассмотрим вышеприведенные пункты и достигнем подходящего показателя сходства между двумя рангами, нам нужно будет задать более интересные вопросы, такие как:

$a$ $b$

— троглодит
источник

Это звучит как «тест Вилкоксона со знаком» ( ссылка на Википедию ). Если предположить, что значения ваших рангов находятся в одном наборе (то есть [1, 25]), то это тест парных разностей (при нулевой гипотезе эти пары были выбраны случайным образом). NB это оценка несходства!

Есть как Rи Pythonреализации связанной в этой вики - странице.

— danodonovan
источник

Интересный. Я не слышал о парной разнице Уилкоксона.

— Питер Флом - Восстановить Монику

Предупреждение: это отличный вопрос, и я не знаю ответа, так что это действительно больше «что бы я сделал, если бы мне пришлось»:

В этой задаче есть много степеней свободы и много сравнений, которые можно сделать, но при ограниченных данных это действительно вопрос эффективного объединения данных. Если вы не знаете, какой тест запустить, вы всегда можете «придумать» его, используя перестановки:

Сначала мы определим две функции:

Функция голосования : как набрать рейтинг, чтобы мы могли объединить все рейтинги одной группы. Например, вы можете присвоить 1 балл элементу с самым высоким рейтингом, а 0 - всем остальным. Тем не менее, вы потеряете много информации, поэтому, возможно, лучше использовать что-то вроде: элемент с наивысшим рейтингом получает 1 балл, второй - на 2 балла и т.д.
Функция сравнения : Как сравнить две агрегированные оценки между двумя группами. Так как оба будут вектором, сработает подходящая норма разницы.

Теперь сделайте следующее:

Сначала вычислите статистику теста, рассчитав средний балл, используя функцию голосования для каждого элемента в двух группах, это должно привести к двум векторам размера 25.
Затем сравните два результата, используя функцию сравнения, это будет ваша статистика теста.

Проблема в том, что мы не знаем распределение тестовой статистики под нулем, что обе группы одинаковы. Но если они одинаковы, мы могли бы случайно перемешать наблюдения между группами.

$n_1$

Повторите процесс около 1000 раз, и теперь используйте статистику теста перестановки как эмпирическое нулевое распределение. Это позволит вам вычислить p-значение, и не забудьте составить красивую гистограмму и нарисовать линию для вашей тестовой статистики следующим образом:

$l_1$ $l_1$ $l_2$

Но, в зависимости от настройки, я ожидаю, что может быть много случайности, и вам понадобится довольно большой размер выборки, чтобы метод сработал. Если у вас есть предварительные знания о конкретных вещах, которые, по вашему мнению, могут различаться между двумя группами (скажем, конкретные предметы), то используйте это, чтобы адаптировать свои две функции. (Конечно, обычно делайте это перед запуском теста и не выбирайте черри, пока не получите что-то существенное )

PS Скиньте мне сообщение, если вас интересует мой (грязный) код. Это слишком долго, чтобы добавить сюда, но я был бы рад загрузить его.

— Sven
источник

Мне очень нравится эта идея.

— Питер Флом - Восстановить Монику