Преимущества использования среднего для суммирования центральной тенденции 5-балльной оценки
Как упомянул @gung, я думаю, что часто есть очень веские причины для того, чтобы брать среднее значение из пяти пунктов как показатель центральной тенденции. Я уже изложил эти причины здесь .
Перефразировать:
- среднее значение легко вычислить
- Смысл интуитивно понятен и понятен
- Среднее значение - это одно число
- Другие индексы часто дают одинаковое ранжирование объектов
Почему среднее хорошо для Амазонки
Подумайте о целях Amazon в сообщении среднего значения. Возможно, они стремятся
- предоставить интуитивный и понятный рейтинг для элемента
- обеспечить принятие пользователем рейтинговой системы
- убедитесь, что люди понимают, что означает рейтинг, чтобы они могли соответствующим образом использовать его для принятия решений о покупке
Amazon предоставляет своего рода округленное среднее, подсчет частоты для каждого варианта рейтинга и размер выборки (т. Е. Количество оценок). Эта информация, по-видимому, достаточна для большинства людей, чтобы оценить как общее настроение в отношении элемента, так и уверенность в таком рейтинге (т. Е. 4,5 с 20 оценками с большей вероятностью будут точнее, чем 4,5 с 2 оценками; элемент с 10 5 -звездочный рейтинг, и один 1-звездочный рейтинг без комментариев, все еще может быть хорошим элементом).
Вы могли даже видеть скупость как демократический вариант. Многие выборы решаются на основе того, какой кандидат получает наибольшее среднее значение по двухбалльной шкале. Точно так же, если вы возьмете аргумент, что каждый человек, который представляет обзор, получает голос, тогда вы можете видеть среднее значение как форму, которая одинаково взвешивает голос каждого человека.
Являются ли различия в использовании масштаба действительно проблемой?
В психологической литературе известен широкий диапазон рейтинговых искажений (обзор см. Saal et al 1980), таких как смещение центральной тенденции, смещение снисходительности, смещение строгости. Кроме того, некоторые оценщики будут более произвольными, а некоторые - более надежными. Некоторые могут даже систематически лгать, давая ложные положительные или ложные отрицательные отзывы. Это создаст различные формы ошибок при попытке вычислить истинную среднюю оценку для элемента.
Однако, если бы вы выбрали случайную выборку из популяции, такие искажения могли бы компенсировать, и при достаточном размере выборки оценщиков вы все равно получили бы истинное среднее значение.
Конечно, вы не получаете случайную выборку на Amazon, и есть риск того, что определенный набор оценщиков, которые вы получаете за элемент, систематически смещен, чтобы быть более снисходительным или строгим, и так далее. Тем не менее, я думаю, что пользователи Amazon будут благодарны за то, что пользовательские рейтинги исходят из несовершенного образца. Я также думаю, что вполне вероятно, что при разумном размере выборки во многих случаях большинство различий в откликах отклика начнут исчезать.
Возможные достижения выше среднего
С точки зрения повышения точности оценки, я бы не стал оспаривать общую концепцию среднего значения, а скорее я думаю, что есть и другие способы оценки истинного среднего значения рейтинга по предмету (т. Е. Среднего рейтинга, который будет получен). были большие репрезентативные выборки попросили оценить элемент).
- Вес оценщиков на основе их достоверности
- Используйте байесовскую систему рейтингов, которая оценивает средний рейтинг как взвешенную сумму среднего рейтинга для всех предметов и среднее значение по конкретному предмету, и увеличивайте вес для конкретного предмета по мере увеличения числа рейтингов.
- Корректируйте информацию о рейтере на основе любой общей тенденции рейтинга по предметам (например, 5 от того, кто обычно дает 3, будет стоить больше, чем тот, кто обычно дает 4).
Таким образом, если точность в рейтинге была главной целью Amazon, я думаю, что она должна стремиться увеличить количество рейтингов на единицу и принять некоторые из вышеуказанных стратегий. Такие подходы могут быть особенно важны при создании рейтинга лучших. Однако для скромного рейтинга на странице вполне может оказаться, что выборочное значение лучше соответствует целям простоты и прозрачности.
Рекомендации
- Saal, FE, Downey, RG & Lahey, MA (1980). Рейтинг рейтингов: Оценка психометрического качества рейтинговых данных. Психологический вестник, 88, 413.