Оцените систему оценок, чтобы отдавать предпочтение предметам, оцененным большим количеством людей, по сравнению с предметами, оцененными меньшим количеством людей?

Заранее спасибо за терпение, я не статистик и не знаю, как описать то, что я представляю, поэтому Google не помогает мне здесь ...

Я включил систему рейтинга в веб-приложение, над которым я работаю. Каждый пользователь может оценить каждый элемент ровно один раз.

Я представлял себе шкалу с 4 значениями: «сильно не любить», «не нравится», «нравится» и «сильно нравится», и я планировал назначить эти значения соответственно -5, -2, +2 и +5 ,

Теперь, если бы у каждого предмета было одинаковое количество оценок, то я бы чувствовал себя комфортно с этой системой подсчета очков, которая четко разграничивает наиболее понравившиеся и наименее понравившиеся предметы. Тем не менее, пункты не будут иметь одинаковое количество оценок, и несоответствие между количеством голосов на разных фотографиях может быть довольно драматичным.

В этом случае сравнение кумулятивных баллов по двум пунктам означает, что старый элемент с большим количеством посредственных оценок будет иметь гораздо более высокий балл, чем исключительный новый элемент с гораздо меньшим количеством голосов.

Итак, первое очевидное, что я подумал о том, чтобы мы взяли среднее ... но теперь, если у предмета есть только один рейтинг "+5", он имеет лучшее среднее значение, чем у предмета, который имеет рейтинг 99 "+5". и 1 "+2" рейтинг. Интуитивно понятно, что это не точное представление о популярности предмета.

Я полагаю, что эта проблема является распространенной, и вы, ребята, не нуждаетесь в том, чтобы я приводил ее с большим количеством примеров, поэтому я остановлюсь на этом и уточню комментарии в случае необходимости.

Мои вопросы:

Как называется эта проблема, и есть ли термин для методов, используемых для ее решения? Я хотел бы знать это, чтобы я мог прочитать об этом.
Если вам случится узнать о каких-либо дружественных ресурсах по этому вопросу, я бы очень признателен за ссылку.
Наконец, я был бы признателен за любые другие предложения о том, как эффективно собирать и анализировать данные такого рода.

scales rating

— Эндрю
источник

Ответы:

Один из способов борьбы с этим - использовать пропорции в каждой категории, при этом вам не нужно вводить цифры для каждой категории (вы можете оставить это значение на уровне 80% как «сильно любит»). Однако пропорции страдают от небольшого количества рейтингов . Это показывает, что в вашем примере Фотография с оценкой 1 +5 получит более высокий средний балл (и пропорцию), чем фотография с оценкой 99 +5 и 1 +2. Это не вписывается в мою интуицию (и я подозреваю, что большинство людей).

Один из способов обойти эту проблему небольшого размера выборки - использовать байесовский метод, известный как « правило наследования Лапласа » (поиск этого термина может быть полезен). Это просто включает добавление 1 «наблюдения» к каждой категории перед вычислением вероятностей. Если вы хотите взять среднее значение для числового значения, я бы предложил средневзвешенное значение, где веса - это вероятности, рассчитанные по правилу наследования.

$n_{sd},n_{d},n_{l},n_{sl}$ $n_{sl}=1,n_{sd}=n_{d}=n{l}=0$ $n_{sl}=99,n_{l}=1,n_{sd}=n_{d}=0$

P r ("Strongly Like") = \frac{n_{s l} + 1}{n_{s d} + n_{d} + n_{l} + n_{s l} + 4}

$Pr(\text{"Strongly Like"}) = \frac{n_{sl}+1}{n_{sd}+n_{d}+n_{l}+n_{sl}+4}$

$\frac{1+1}{1+0+0+0+4}=\frac{2}{5}$ $\frac{99+1}{99+1+0+0+4}=\frac{100}{104}$ $\frac{1}{1}$ $\frac{99}{100}$

Соответствующие оценки даны как средневзвешенное значение, которое я записал ниже как:

S c o r e = \begin{matrix} 5 \frac{n_{s l} + 1}{n_{s d} + n_{d} + n_{l} + n_{s l} + 4} + 2 \frac{n_{l} + 1}{n_{s d} + n_{d} + n_{l} + n_{s l} + 4} \\ - 2 \frac{n_{d} + 1}{n_{s d} + n_{d} + n_{l} + n_{s l} + 4} - 5 \frac{n_{s d} + 1}{n_{s d} + n_{d} + n_{l} + n_{s l} + 4} \end{matrix}

$Score=\begin{array}{1 1} 5\frac{n_{sl}+1}{n_{sd}+n_{d}+n_{l}+n_{sl}+4}+2\frac{n_{l}+1}{n_{sd}+n_{d}+n_{l}+n_{sl}+4} \\ - 2\frac{n_{d}+1}{n_{sd}+n_{d}+n_{l}+n_{sl}+4} -5\frac{n_{sd}+1}{n_{sd}+n_{d}+n_{l}+n_{sl}+4}\end{array}$

Или более кратко, как

S c o r e = \frac{5 n_{s l} + 2 n_{l} - 2 n_{d} - 5 n_{s d}}{n_{s d} + n_{d} + n_{l} + n_{s l} + 4}

$Score=\frac{5 n_{sl}+ 2 n_{l} - 2 n_{d} - 5 n_{sd}}{n_{sd}+n_{d}+n_{l}+n_{sl}+4}$

$\frac{5}{5}=1$ $\frac{497}{104}\sim 4.8$

Это может быть немного "математически", поэтому дайте мне знать, если вам нужно больше объяснений.

— probabilityislogic
источник

Это было немного "математически" для меня, и изначально я не понимал формулу, но я внимательно прочитал ее примерно три раза, и она щелкнула! Это именно то , что я искал, и ваше объяснение было очень ясным, даже для кого-то, кто вообще не является математиком или статистиком. Большое спасибо!

— Андрей

Очень хороший нетехнический ответ и подход, о котором я бы не подумал. Я бы только добавил, что в каждую категорию можно добавить любое количество фальшивых «наблюдений» вместо 1, включая нецелые числа. Это дает вам гибкость, чтобы решить, насколько вы хотите «сжать» до нуля баллов пунктов с несколькими голосами. И если вам захочется получить технически обоснованное описание этого метода, вы можете сказать, что вы выполняете байесовский анализ данных из полиномиального распределения с использованием симметричного предварительного дирихле.

— остановка

Хотя они могут показаться «поддельными» наблюдениями, они имеют четко определенное значение, когда оно равно +1 (в отличие от +2 или выше, которые на самом деле являются «поддельными» числами или числами из предыдущего сбора данных). Это в основном описывает состояние знаний , что это возможно для каждой категории, голосования за, до для соблюдения каких - либо данных. Это именно то, что делает плоский априор (N-1) симплекса.

— вероятностная

Еще одно наблюдение для будущих людей, которые найдут этот пост: при реализации этого в моей модели я взял окончательный результат и умножил его на 20, что дает диапазон от -100 до 100 от худшего до наилучшего возможного результата (хотя я полагаю, что технически это пределы, которые вы никогда не сможете достичь, но вы поняли). Это делает вывод для пользователей в моем приложении очень интуитивным!

— Андрей

@probabilityislogic: несомненно, какие-либо строго положительные параметры для предварительного Дирихле описывают, что все вероятности строго между 0 и 1? И этот аргумент предлагает установить для них значение 2 / m, где m - это количество категорий, а не 1: en.wikipedia.org/wiki/…

— onestop

Я бы выбрал графический подход. Ось X может быть средней оценкой, а у - числом оценок. Я делал это со спортивной статистикой, чтобы сравнить вклад молодых феноменов с вкладом звезд-ветеранов. Чем ближе точка находится к верхнему правому углу, тем ближе к идеалу. Конечно, выбор «лучшего» пункта все равно будет субъективным решением, но это обеспечит некоторую структуру.

Если вы хотите построить среднюю оценку в сравнении с другой переменной, то вы можете установить число оценок в качестве третьей переменной, используя размер пузырька, на пузырьковом графике - например, в XL или SAS.

— rolando2
источник