«Нет графических методов» - это большой недостаток, но ... вот пара странных идей. Оба рассматривают рейтинги как непрерывные, что является чем-то вроде концептуальной слабости и, вероятно, не единственным ...
эксцесс
- Куртоз {1,1,1,5,5,5} = 1. Вы не получите меньший эксцесс с любым комбо из 1–5 оценок.
- Эксцесс {1,2,3,4,5} = 1,7. Нижний означает более экстремальные значения; выше означает больше среднего.
- Это не будет работать, если распределение не примерно симметрично. Я продемонстрирую ниже.
Отрицательная биноминальная регрессия
С кадром данных следующим образом: Пригодное модель Р т е д у й п с у ~ Р т я н г + √
Rating12345Frequency31157937
с использованием отрицательной биномиальной регрессии.
√Freqу й п с у ~ Р т я п г + Рating−−−−−−√Коэффициент
R a t i n g должен быть близким к нулю, если рейтинги
распределены равномерно, положительным, если пропорционально больше значений среднего диапазона (ср.
Биномиальное распределение), или отрицательным с поляризованными распределениями, подобными приведенным выше, для которых коэффициент равен - 11,8.
R a t i n g------√
FWIW, вот т код , который я играл с:
x=rbinom(99,4,c(.1,.9))+1;y=sample(0:4,99,replace=T)+1 #Some polarized & uniform rating data
table(x);table(y) #Frequencies
require(moments);kurtosis(x);kurtosis(y) #Kurtosis
Y=data.frame(n=as.numeric(table(y)),rating=as.numeric(levels(factor(y)))) #Data frame setup
X=data.frame(n=as.numeric(table(x)),rating=as.numeric(levels(factor(x)))) #Data frame setup
require(MASS);summary(glm.nb(n~rating+sqrt(rating),X)) #Negative binomial of polarized data
summary(glm.nb(n~rating+sqrt(rating),Y)) #Negative binomial of uniform data
Не могу устоять перед броском в сюжет ...
require(ggplot2);ggplot(X,aes(x=rating,y=n))+geom_point()+stat_smooth(formula=y~x+I(sqrt(x)),method='glm',family='poisson')
R a t i n g------√
Редактировать: только что увидел этот вопрос, рекламируемый на боковой панели:
и когда я нажал, я увидел его в Hot Network Questions, ссылающихся обратно на себя, как это иногда бывает ,
поэтому я подумал, что это заслуживает повторного рассмотрения в более общем смысле. Я решил попробовать свои методы в обзорах клиентов Amazon для футболки The Mountain Three Wolf Moon с коротким рукавом :
R a t i n gF r e qу е н гр у1208254389419852273
βR a t i n g√= - 19,1
σ2F r e qу е н гр уРейтинги The Three Three Wolf Moon с короткими рукавами= 1,31
x=rep(5:1,c(2273,198,89,54,208))
var(x)/(4*length(x)/(length(x)-1))