Есть ли у нас проблема «жалких голосов»?


51

Я знаю, это может звучать как не по теме, но выслушайте меня.

В Stack Overflow и здесь мы получаем голоса за сообщения, все это хранится в табличной форме.

Например:

идентификатор сообщения идентификатор голосования тип голосования дата и время
------- -------- --------- --------
10 1 2 2000-1-1 10:00:01 
11 3 3 2000-1-1 10:00:01 
10 5 2 2000-1-1 10:00:01 

... и так далее. Тип голосования 2 - отрицательный, тип голосования 3 - отрицательный. Вы можете запросить анонимную версию этих данных на http://data.stackexchange.com

Существует мнение, что если сообщение набирает -1 балл или ниже, оно с большей вероятностью будет проголосовано. Это может быть просто предвзятым подтверждением или может быть корнем на самом деле.

Как мы проанализируем эти данные, чтобы подтвердить или опровергнуть эту гипотезу? Как бы мы измерили эффект этого смещения?


1
мы можем получить пример запроса? Не все хорошо разбираются в написании операторов SQL. Наличие образцов данных может побудить людей попытаться поиграть с ними. +1 за вопрос.
mpiktas

@Jeff голоса анонимны, вы можете получить только частичную информацию из дампа данных, он включает в себя все переходы, хотя вот краткий пример data.stackexchange.com/stackoverflow/q/101738 полные анонимные данные доступны в публичном дампе данных
Сэм Шафран

Почему просто против? Как, несомненно, будет интересна вероятность разделения голосов вверх или вниз по каждому конкретному значению?
Боб Даррант

@ Боб, конечно согласен, что они будут
Сэм Шафран

1
Я видел, как другие сайты запутывают голоса (то есть добавляют шум перед их отображением), а иногда даже полностью скрывают голоса «за» и «против» в течение короткого периода времени, чтобы избежать различных форм побежденности, жалких голосов и других «социальных» голосов. элементы голосования.
Glen_b

Ответы:


32

Вы можете использовать многоуровневую модель или цепочку Маркова (пакет msm в R - один из способов их соответствия). Затем можно посмотреть, больше ли вероятность перехода от -1 до 0, чем от 0 до 1, от 1 до 2 и т. Д. Вы также можете посмотреть среднее время на -1 по сравнению с другими, чтобы увидеть, не короче ли оно. ,


3
+1 отличная ссылка. В журнале статистического программного обеспечения есть статья о пакете MSM. Модель кажется идеально приспособленной для такого рода задач.
mpiktas

3
Идея модели цепи Маркова выглядит неплохой, но среднее время при -1 не даст всей истории. Возможно (и правдоподобно - подумайте плохие вопросы), что один из них будет более склонен к понижению при -1, чем где-либо еще.
Боб Даррант

Я думаю, что в первую очередь нужно сгруппировать траектории голосования - те, которые получают (почти) только повышение / понижение голосов (очень популярные / очень плохие вопросы), и те, которые являются более спорными. Тогда вы можете делать цепи Маркова на три класса.
Джонас

13

Провести эксперимент. Случайным образом уменьшайте половину новых сообщений в определенное время каждый день.


5
Круто, мы должны наблюдать значительное увеличение значков "критика" и, вероятно, снижение мотивации для новых пользователей :-) Лучше начинать с пользователей с высоким уровнем повторения, в этом случае (с риском смещения эксперимента!)
chl

14
На самом деле мы могли бы добиться большего успеха, чем это ... используя тестирование AB, мы могли бы выбрать отображение половины проголосовавшего за -1 вопроса на сайте как 0 и половины как -1 ... и посмотреть, будет ли какая-либо из групп более вероятной upvoted! Гениальный.
Сэм Шафран

4
Идея эксперимента контролирует качество постов, но (1) те, кто понижен в должности, должны заранее договориться об участии в эксперименте, и (2) после непродолжительного времени оценки должны быть удалены.
zbicyclist

2
+1 (и +1 ко всем комментариям здесь тоже): контролируемый обратимый эксперимент, заранее сообщаемый всем пользователям, которые могут быть затронуты и проводимые с их одобрения, является одним из самых надежных способов получения этой информации.
whuber

13

Резюме моего ответа. Мне нравится моделирование цепей Маркова, но оно пропускает «временной» аспект. С другой стороны, фокусировка на временном аспекте (например, на среднем времени в ) пропускает аспект «перехода». Я хотел бы перейти к следующему общему моделированию (которое с подходящим допущением может привести к [процессу Маркова] [1]). Также есть много «цензурированных» статистических данных, стоящих за этой проблемой (что, безусловно, является классической проблемой надежности программного обеспечения?). Последнее уравнение моего ответа дает оценку максимального правдоподобия интенсивности голосования (с «+» и «до» с «-») для данного состояния голосования. Как мы можем видеть из уравнения, он является промежуточным по отношению к случаю, когда вы оцениваете только вероятность перехода, и к случаю, когда вы измеряете только время, проведенное в данном состоянии. Надеюсь, это поможет.1

Общее моделирование (для повторения вопроса и предположений). Пусть и будут случайными переменными, моделирующими соответственно даты голосования и соответствующий знак голосования (+1 для повышения, -1 для снижения). Процесс голосования просто ( S i ) i 1(VDi)i1(Si)i1

Yt=Yt+Yt
где

Yt+=i=01VDit,Si=1 and Yt=i=01VDit,Si=1

Важное значение здесь имеет намерение -jump где может быть или а - хорошая фильтрация, в общем случае, без других знаний это было бы : .ϵ

λtϵ=limdt01dtP(Yt+dtϵYtϵ=1|Ft)
ϵ+Ft
Ft=σ(Yt+,Yt,VD1,,VDYt++Yt,S1,,SYt++Yt)

но в соответствии с вашим вопросом, я думаю, вы неявно предполагаете, что Это означает, что для существует детерминированная последовательность такой, что .

P(Yt+dtϵYtϵ=1|Ft)=P(Yt+dtϵYtϵ=1|Yt)
ϵ=+,(μiϵ)iZλtϵ=μYtϵ

В рамках этого формализма ваш вопрос можно переформулировать так: «вполне вероятно, что » (или, по крайней мере, разница больше, чем заданный порог).μ1+μ0+>0

В этом предположении легко показать, что является [однородным марковским процессом] [3] на с генератором заданным какYtZQ

i,jZQi,i+1=μi+Qi,i1=μiQii=1(μi++μi)Qij=0 if |ij|>1

Отвечая на вопрос (предлагая оценку максимального правдоподобия для статистической задачи) Из этой переформулировки решение проблемы осуществляется путем оценки и построения теста с учетом его значений. Давайте исправим и забудем индекс без потери общности. Оценка (и ) может быть выполнена после наблюдения(μi+)iμ+μ

(T1,η1),,(Tp,ηp) где - длины из периодов, проведенных в состоянии (то есть последовательные времена с ) и равно если за вопрос проголосовали отрицательно, если за него проголосовали, и если это было последнее состояние наблюдения.TjjthpiYt=iηj+110

Если вы забудете случай с последним состоянием наблюдения, упомянутые пары будут взяты из распределения, которое зависит от и : оно распространяется как (где Exp - это случайная переменная из экспоненциального распределения, а равно + или -1 в зависимости от того, кто реализует максимум). Затем вы можете использовать следующую простую лемму (доказательство простое):μi+μi(min(Exp(μi+),Exp(μi)),η)η

Лемма Если и то и . X+Exp(μ+)XExp(μ)T=min(X+,X)Exp(μ++μ)P(X+1<X)=μ+μ++μ

Это означает, что плотность of определяется как: где для - это функция плотности экспоненциальной случайной величины с параметром . Из этого выражения легко вывести оценку максимального правдоподобия и :f(t,ϵ)(T,η)

f(t,ϵ)=gμ++μ(1(ϵ=+1)μ++1(ϵ=1)μμ++μ)
gaa>0aμ+μ

(μ^+,μ^)=argminln(μ+μ+)((μ+μ+)i=1pTi+p)pln(μ)p+ln(μ+)
гдеи,p=|i:δi=1|p+=|i:δi=+1|

Комментарии для более продвинутых подходов

Если вы хотите принять во внимание случаи, когда - последнее наблюдаемое состояние (конечно, умнее, потому что когда вы проходите через , это часто ваш последний счет ...), вам нужно немного изменить рассуждение. Соответствующая цензура является относительно классической ...i1

Возможный другой подход может включать в себя возможность

  • Имея интенсивность, которая уменьшается со временем
  • Имея интенсивность, которая уменьшается со временем, проведенным с момента последнего голосования (я предпочитаю это. В этом случае есть классический способ моделирования, как плотность уменьшается ...
  • Вы можете предположить, что является гладкой функцией отμi+i
  • .... вы можете предложить другие идеи!
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.