Средняя средняя точность против среднего взаимного ранга

Я пытаюсь понять, когда уместно использовать MAP и когда следует использовать MRR. Я нашел эту презентацию, в которой говорится, что MRR лучше всего использовать, когда число релевантных результатов меньше 5, а лучше всего, когда оно равно 1. В других случаях MAP подходит. У меня есть два вопроса:

Я не очень понимаю, почему это так.
Я не могу найти цитируемую ссылку для этого требования.

Пожалуйста, обратите внимание, что у меня нет очень сильной статистической информации, поэтому объяснения непрофессионала очень помогли бы. Спасибо.

information-retrieval average-precision

— КГ
источник

Представьте, что у вас есть какой-то запрос, и ваша поисковая система вернула вам ранжированный список из топ-20 элементов, которые она считает наиболее подходящими для вашего запроса. Теперь также представьте, что в этом есть основополагающая истина, что по правде говоря, мы можем сказать для каждого из этих 20, что «да» это соответствующий ответ, или «нет», это не так.

Среднее взаимное ранжирование (MRR) дает вам общий показатель качества в этих ситуациях, но MRR заботится только об одном соответствующем элементе с самым высоким рейтингом . Если ваша система возвращает соответствующий элемент на третьем месте, это забота MRR. Это не волнует, если другие соответствующие элементы (при условии, что они есть) имеют номер 4 или номер 20.

Следовательно, MRR подходит для оценки системы, в которой либо (а) имеется только один релевантный результат, либо (б) в вашем случае использования вы действительно заботитесь только о наиболее высоко оцененном. Это может быть верно в некоторых сценариях веб-поиска, например, когда пользователь просто хочет найти что-то, на что можно нажать, ему больше не нужно. (Хотя, как правило, это правда, или вы будете более довольны поиском в сети, который дал десять довольно хороших ответов, и вы могли бы составить собственное мнение о том, на кого из них нажать ...?)

Средняя средняя точность (MAP) учитывает, имеют ли все значимые позиции высокий рейтинг. Таким образом, в примере из топ-20 не только важно, есть ли соответствующий ответ под номером 3, но также важно, все ли элементы «да» в этом списке сгруппированы в верхней части.

Когда в вашем наборе данных есть только один соответствующий ответ, MRR и MAP в точности соответствуют стандартному определению MAP.

Чтобы понять почему, рассмотрите следующие примеры игрушек, вдохновленные примерами из этого блога :

Пример 1

Запрос: «Столица Калифорнии»

Ранжированные результаты: "Портленд", "Сакраменто", "Лос-Анджелес"

Ранжированные результаты (бинарная релевантность): [0, 1, 0]

Количество правильных ответов возможно: 1

Ответный ранг: $\frac{1}{2}$

Точность на 1: $\frac{0}{1}$

Точность на 2: $\frac{1}{2}$

Точность на 3: $\frac{1}{3}$

Средняя точность = . $\frac{1}{m} * \frac{1}{2} = \frac{1}{1}*\frac{1}{2} = 0.5$

Как видите, средняя точность запроса с ровно одним правильным ответом равна взаимному рангу правильного результата. Отсюда следует, что MRR коллекции таких запросов будет равна ее MAP. Однако, как показано в следующем примере, вещи расходятся, если существует более одного правильного ответа:

Пример 2

Запрос: «Города в Калифорнии»

Ранжированные результаты: "Портленд", "Сакраменто", "Лос-Анджелес"

Ранжированные результаты (бинарная релевантность): [0, 1, 1]

Количество правильных ответов возможно: 2

Ответный ранг: $\frac{1}{2}$

Точность на 1: $\frac{0}{1}$

Точность на 2: $\frac{1}{2}$

Точность на 3: $\frac{2}{3}$

Средняя точность = . $\frac{1}{m} * \big[ \frac{1}{2} + \frac{2}{3} \big] = \frac{1}{2} * \big[ \frac{1}{2} + \frac{2}{3} \big] = 0.38$

Таким образом, выбор MRR против MAP в этом случае полностью зависит от того, хотите ли вы повлиять на ранжирование после первого правильного попадания.

— Дэн Стоуэлл
источник