Вводит ли Amazon в заблуждение «средний рейтинг»?

49

Если я правильно понимаю, рейтинги книг по шкале от 1 до 5 - это баллы Лайкерта. То есть 3 для меня не обязательно может быть 3 для кого-то еще. Это порядковая шкала ИМО. На самом деле не следует усреднять порядковые шкалы, но определенно можно выбрать моду, медиану и процентили.

Так можно ли нарушать правила, поскольку большая часть населения понимает средства, а не приведенные выше статистические данные? Хотя исследовательское сообщество решительно осуждает принятие средних значений данных, основанных на шкале Лайкерта, нормально ли это делать с массами (практически говоря)? Является ли взятие среднего значения в этом случае даже вводящим в заблуждение?

Кажется маловероятным, что такая компания, как Amazon, будет искать основную статистику, но если нет, то чего мне здесь не хватает? Можем ли мы утверждать, что порядковый масштаб является удобным приближением к порядковому порядку, чтобы оправдать взятие среднего? На каком основании?

mean ordinal-data likert

— кандидат наук
источник

3

Если 3 для вас не совпадает с 3 для кого-то другого, то у вас даже нет шкалы: у вас есть набор несопоставимых измерений, и вы не сможете сделать что-либо значимое для их суммирования. Порядковый номер шкалы состоит в том, что (а) значения можно сравнивать, поэтому ваши 3 и 3 означают одно и то же, но (б) числовые различия значений не имеют смысла, кроме их знаков, так что (скажем) два 3, а 4 и 2, или 5 и 1 можно расположить в любом порядке, хотя численно каждая пара оценок имеет одинаковое среднее значение и медиану.

— whuber

1

@whuber - но разве не правда, что 2 человека могут не придерживаться одинакового мнения о цифрах от 1 до 9? 6 для меня действительно не может быть 6 для кого-то еще, если у них нет предопределенной шкалы?

— кандидат наук

1

Недавно я прочитал один отзыв на Amazon, в котором говорилось: «Блестящий продукт не может быть виноват. Я бы никогда не дал 5 звезд, поэтому присудил 4». Если это не искажает среднее значение, то я не знаю, что делает

— Мэтт Вилко

2

@ Wilko Вы говорите о различиях во мнениях, а не различий в масштабе. Даже когда шкала очень тщательно откалибрована, как, например, в оценках для гимнастики или фигурного катания или в международной шкале для оценки сложности порогов на реках, и даже когда специалисты обучены использовать эту шкалу, все равно будут различия. Это обычно не интерпретируется как доказательство того, что шкала субъективна: она интерпретируется как вариация среди судей.

— whuber

1

Извините, это не совсем ответ, но, к сожалению, я не смог найти функцию «комментарий». Недавно я начал писать магистерскую диссертацию о ключевых элементах отзывов клиентов. Принимая во внимание следующие обстоятельства, я также начал сомневаться в значении 5-звездочной рейтинговой системы Amazon. - Количество недоверчивых обзоров - Эффекты смещения рейтингов и J-кривых ( buildingreputation.com/writings/2009

— derPio

42

Преимущества использования среднего для суммирования центральной тенденции 5-балльной оценки

Как упомянул @gung, я думаю, что часто есть очень веские причины для того, чтобы брать среднее значение из пяти пунктов как показатель центральной тенденции. Я уже изложил эти причины здесь .

Перефразировать:

среднее значение легко вычислить

Смысл интуитивно понятен и понятен

Среднее значение - это одно число

Другие индексы часто дают одинаковое ранжирование объектов

Почему среднее хорошо для Амазонки

Подумайте о целях Amazon в сообщении среднего значения. Возможно, они стремятся

предоставить интуитивный и понятный рейтинг для элемента
обеспечить принятие пользователем рейтинговой системы
убедитесь, что люди понимают, что означает рейтинг, чтобы они могли соответствующим образом использовать его для принятия решений о покупке

Amazon предоставляет своего рода округленное среднее, подсчет частоты для каждого варианта рейтинга и размер выборки (т. Е. Количество оценок). Эта информация, по-видимому, достаточна для большинства людей, чтобы оценить как общее настроение в отношении элемента, так и уверенность в таком рейтинге (т. Е. 4,5 с 20 оценками с большей вероятностью будут точнее, чем 4,5 с 2 оценками; элемент с 10 5 -звездочный рейтинг, и один 1-звездочный рейтинг без комментариев, все еще может быть хорошим элементом).

Вы могли даже видеть скупость как демократический вариант. Многие выборы решаются на основе того, какой кандидат получает наибольшее среднее значение по двухбалльной шкале. Точно так же, если вы возьмете аргумент, что каждый человек, который представляет обзор, получает голос, тогда вы можете видеть среднее значение как форму, которая одинаково взвешивает голос каждого человека.

Являются ли различия в использовании масштаба действительно проблемой?

В психологической литературе известен широкий диапазон рейтинговых искажений (обзор см. Saal et al 1980), таких как смещение центральной тенденции, смещение снисходительности, смещение строгости. Кроме того, некоторые оценщики будут более произвольными, а некоторые - более надежными. Некоторые могут даже систематически лгать, давая ложные положительные или ложные отрицательные отзывы. Это создаст различные формы ошибок при попытке вычислить истинную среднюю оценку для элемента.

Однако, если бы вы выбрали случайную выборку из популяции, такие искажения могли бы компенсировать, и при достаточном размере выборки оценщиков вы все равно получили бы истинное среднее значение.

Конечно, вы не получаете случайную выборку на Amazon, и есть риск того, что определенный набор оценщиков, которые вы получаете за элемент, систематически смещен, чтобы быть более снисходительным или строгим, и так далее. Тем не менее, я думаю, что пользователи Amazon будут благодарны за то, что пользовательские рейтинги исходят из несовершенного образца. Я также думаю, что вполне вероятно, что при разумном размере выборки во многих случаях большинство различий в откликах отклика начнут исчезать.

Возможные достижения выше среднего

С точки зрения повышения точности оценки, я бы не стал оспаривать общую концепцию среднего значения, а скорее я думаю, что есть и другие способы оценки истинного среднего значения рейтинга по предмету (т. Е. Среднего рейтинга, который будет получен). были большие репрезентативные выборки попросили оценить элемент).

Вес оценщиков на основе их достоверности
Используйте байесовскую систему рейтингов, которая оценивает средний рейтинг как взвешенную сумму среднего рейтинга для всех предметов и среднее значение по конкретному предмету, и увеличивайте вес для конкретного предмета по мере увеличения числа рейтингов.
Корректируйте информацию о рейтере на основе любой общей тенденции рейтинга по предметам (например, 5 от того, кто обычно дает 3, будет стоить больше, чем тот, кто обычно дает 4).

Таким образом, если точность в рейтинге была главной целью Amazon, я думаю, что она должна стремиться увеличить количество рейтингов на единицу и принять некоторые из вышеуказанных стратегий. Такие подходы могут быть особенно важны при создании рейтинга лучших. Однако для скромного рейтинга на странице вполне может оказаться, что выборочное значение лучше соответствует целям простоты и прозрачности.

Рекомендации

Saal, FE, Downey, RG & Lahey, MA (1980). Рейтинг рейтингов: Оценка психометрического качества рейтинговых данных. Психологический вестник, 88, 413.

— Джером англим
источник

1

+1. Я думаю, что это выходит за рамки / расширяет ваш предыдущий ответ очень хорошим способом. Мне особенно нравится раздел «почему среднее значение хорошо для Amazon», в котором более четко перечислено то, к чему я стремился в своем последнем предложении. «Различное использование шкалы» также весьма проницательно; Я был бы признателен за ссылку на обзор этой литературы, если вы знаете хороший. Тем не менее, я отмечаю, что последний раздел в некоторой степени напряжен в отношении второго.

— gung - Восстановить Монику

2

Благодарю. Я добавил ссылку на литературу о предвзятости рейтинга и в конце добавил кое-что, что пытается согласовать две перспективы.

— Джером Энглим

2

+1 @JeromyAnglim - полная перспектива, проливающая свет на различные аспекты проблемы. Престижность!

— Доктор философии

+1, отличный ответ. Хотя я нашел одно предложение слегка вводящим в заблуждение. Когда вы сказали: «Однако, если бы вы выбрали случайную выборку населения, такие искажения были бы устранены, и при достаточном размере выборки оценщиков вы все равно получили бы истинное среднее значение». - Я не думаю, что это относится ко всем уклонам, даже если у вас была случайная выборка населения.

— Майкл Бишоп

1

@MichaelBishop Спасибо, я согласен, мой язык был немного неаккуратным. Я думаю, это зависит от того, что подразумевается под «истинным средним». Я могу видеть, как, если у вас есть мошенники в популяции, это может сместить нескорректированное значение популяции от гипотетического «истинного среднего». Я больше думал о том, что любые систематические искажения отдельных лиц, которые относятся ко всем предметам, будут отменены, чтобы обеспечить беспристрастное упорядочение рангов предметов, основанное на полученном среднем значении.

— Джером Энглим

15

Чтобы быть несколько техническим здесь, эти рейтинги на самом деле не шкала Лайкерта ; это просто порядковые рейтинги. Сказав это, ваша точка зрения по существу верна. Тем не менее, я часто думаю, что слишком много сделано из этой проблемы. Следует отметить, что обычно подразумевается, что среднее число порядковых элементов может быть приблизительно интервальным, и, таким образом, при наличии множества оценок среднее значение становится более разумным представлением. Я нашел этот ответ @JeromyAnglim отличным (действительно, вопрос и все сопутствующие ответы там стоит прочитать). Для более теоретического лечения, смотрите здесь, С другой стороны, мне нравится Amazon, но я не вижу причин ожидать от них изощренности в области статистики, особенно с точки зрения базового дизайна сайта - суть заключается в удобстве использования пользователями, а не в впечатлении от преподавателей статистики.

— Gung - Восстановить Монику
источник

2

Amazon является одним из лидеров индустрии интернет-технологий в области экспериментального дизайна для интернет-рекламы и использования веб-сайтов. Вы можете быть уверены , что они на самом деле являются весьма искушенными в своих статистических подходах. :-) Ваша точка зрения хорошая. Чтобы сделать небольшой шаг вперед, вы можете себе представить, что Amazon делал что-то «более сложное», и кто-то проверил их, используя простое среднее значение, обнаружив, что некоторые элементы были оценены «выше», чем их среднее значение, а другие «ниже», что подняло суетиться и уходить из Amazon, чтобы попытаться объяснить свои «скрытые предубеждения» в отношении продуктов?

— кардинал

1

Другие сервисы, например Netflix, позволяют избежать этой проблемы, предоставляя только «сводные» данные. :)

— кардинал

@cardinal, это очень интересно, я не знал этого об Amazon.

— gung - Восстановить Монику

15

У всех есть хорошие мнения по этому поводу. Я не думаю, что могу добавить намного больше. Тем не менее, я опубликую это :

— inspectorG4dget
источник

7

Я предполагаю, что комикс подчеркивает, что некоторые люди плохо судят о качестве предмета, и, усредняя по многим таким людям, вы получаете плохой средний балл. В целом мудрость толп предполагает, что средние показатели достаточно хороши, когда, по крайней мере, разумная часть людей обладает определенными знаниями. Взвешивание рейтингов по надежности также может быть одной из стратегий для преодоления проблем.

— Джером Энглим

1

Другой вариант - использовать рекомендации в стиле Netflix, сравнивая ваш рейтинг с оценками других пользователей, а затем усредняя рейтинги, предлагаемые пользователями с аналогичным выбором, как у вас.

— Рахул

1

@rahul Это хороший момент. В своем ответе я иногда предполагаю, что рейтинги - это в основном истинный балл + ошибка, даже если есть ошибка в структуре. Но когда дело доходит до областей, где личные предпочтения являются частью определения качества, это не всегда имеет такой большой смысл.

— Джером Энглим

Мне это нравится, и именно поэтому (как потребитель) я стараюсь читать отзывы, а не просто смотреть на количество звезд. Но я подумал, что это иронично, что в этом случае более «изощренные» методы медианы, моды и процентилей дают худший результат, чем среднее ;-)

— Даррен Кук

3

По моему опыту, среднее значение данных шкалы оценок часто наиболее тесно связано с уровнем реальных показателей, которые мы пытаемся связать с шкалой оценок. Мы нашли много линейных отношений, и поэтому среднее значение является одним из лучших способов суммировать данные. При этом, как отметил Джероми, большинство способов анализа центральной тенденции рейтинговой шкалы в большинстве случаев даст аналогичные результаты (ранговые порядки и т. Д.).

Кроме того, я подозреваю, что Amazon, вероятно, не все, что так или иначе касается научной обоснованности. В конце концов, цель Amazon состоит в том, чтобы заставить людей делать покупки на Amazon.com, и способ, которым обзоры помогают достичь этого, вероятно, не будет меняться в зависимости от того, какое резюме будет использоваться. Хорошие продукты будут вознаграждены, действительно плохие продукты наказаны, и нервные покупатели будут иметь возможность рассмотреть плюсы и минусы более подробно.

— Джонатан
источник

2

Рейтинги Amazon вводят в заблуждение из-за компаний, разыгрывающих систему. Когда клиентам предлагаются скидки и бесплатный товар в обмен на 5-звездочных обзоров, «Статистика» того, что число оценок является или средства становятся спорными.

— Джон
источник

1

У вас есть данные о том, как часто такие вещи случаются?

— Майкл Бишоп

1

Ты делаешь доброе дело. Принятие среднего числа по порядку несколько вводит в заблуждение. Любая сводка по нескольким рейтингам пострадает от того факта, что моя субъективная 3 может действительно приравниваться к вашей 4. Поэтому объединение различных индивидуальных баллов, вероятно, является самой большой проблемой. Интерпретация среднего значения 3 и 4 как 3,5 не столь вопиющая.

— Майкл Черник
источник