Я пытаюсь собрать пакет сбора данных для сайтов StackExchange и, в частности, я застрял в попытке определить «самые интересные» вопросы. Я хотел бы использовать оценку вопроса, но убрать смещение из-за количества просмотров, но я не знаю, как к этому строго подходить.
В идеальном мире я мог бы отсортировать вопросы, рассчитав , где - общее количество голосов, а - количество просмотров. В конце концов, он будет измерять процент людей, которые проголосовали за вопрос, минус процент людей, которые отрицали вопрос. вн
К сожалению, схема голосования намного сложнее. Голоса стремятся к «плато» до определенного уровня, и это приводит к резкому недооценке чрезвычайно популярных вопросов. На практике вопрос с 1 просмотром и 1 повышением голосов, безусловно, будет оценен и отсортирован выше, чем любой другой вопрос с 10 000 просмотров, но менее 10 000 голосов.
В настоящее время я использую в качестве эмпирической формулы, но я хотел бы быть точным. Как я могу подойти к этой проблеме с математической строгостью?
Чтобы ответить на некоторые комментарии, я попытаюсь сформулировать проблему лучше:
Допустим, у меня есть вопрос с общим количеством голосов и просмотров. Я хотел бы иметь возможность оценить, какое количество голосов наиболее вероятно, когда число просмотров достигнет .n 0 v 1 n 1
Таким образом, я мог бы просто выбрать номинальное значение для и упорядочить все вопросы в соответствии с ожидаемым итогом .v 1
Я создал два запроса к базе данных SO, чтобы лучше показать эффект, о котором я говорю:
Среднее количество просмотров по баллу
Результат:
Средний балл по просмотрам (100 просмотров)
Результат:
Результаты, не уверен, что прямее лучше: ( синим цветом, красным)