Недавно я провел некоторый анализ влияния репутации на положительные отзывы (см. Пост в блоге ), и впоследствии у меня возникло несколько вопросов о, возможно, более информативном (или более подходящем) анализе и графике.
Итак, несколько вопросов (и не стесняйтесь отвечать кому-то конкретно и игнорировать других):
В своем нынешнем воплощении я не имел ввиду центр номера поста. Я думаю, что это дает ложное представление об отрицательной корреляции на графике рассеяния, поскольку в нижней части счетчика постов появляется больше постов (вы видите, что этого не происходит на панели Jon Skeet, только у смертных пользователей). панель). Разве это не уместно не центрировать номер поста (поскольку я имею в виду центрировать балл по среднему баллу пользователя)?
Из графиков должно быть очевидно, что оценка сильно искажена (и среднее центрирование не изменилось). При подгонке линии регрессии я подбираю как линейные модели, так и модель с использованием ошибок Губер-Уайта (с помощью
rlm
пакета MASS R ), и это не имеет никакого значения в оценках наклона. Должен ли я рассмотреть преобразование данных вместо надежной регрессии? Обратите внимание, что любое преобразование должно учитывать вероятность 0 и отрицательных оценок. Или я должен был использовать какой-то другой тип модели для подсчета данных вместо OLS?Я считаю, что последние две графики, в целом, можно улучшить (и это также связано с улучшенными стратегиями моделирования). По моему (измученному) мнению, я бы заподозрил, что если репутационные эффекты реальны, они будут реализованы довольно рано в истории постеров (полагаю, что если это правда, они могут быть пересмотрены), вы дали несколько отличных ответов, так что теперь я буду голосовать за все ваши сообщения "вместо" репутации по общему количеству "эффектов). Как я могу создать графику, чтобы продемонстрировать, является ли это правдой, принимая во внимание избыточный график? Я подумал, что, может быть, хороший способ продемонстрировать это будет соответствовать модели формы;
где - это (то же, что и в текущих точках рассеяния), - это , а - фиктивные переменные, представляющие некоторый произвольный диапазон номеров (например, равен, если номер сообщения равен , равен, если номер поста и т. д.). и - это термин большой перехват и ошибка соответственно. Затем я бы просто изучил предполагаемые наклоны, чтобы определить, появились ли эффекты репутации на ранних этапах истории плакатов (или графически отобразить их). Это разумный (и уместный) подход?score - (mean score per user)
post number
1
1 through 25
1
26 through 50
Кажется популярным подгонять некоторые типы непараметрических линий сглаживания к диаграммам рассеяния, подобным этим (таким как лесс или сплайны), но мои эксперименты со сплайнами не выявили ничего поучительного (любые свидетельства положительных эффектов на ранних этапах истории плакатов были незначительными и временными к числу сплайнов, которые я включил). Поскольку у меня есть гипотеза о том, что эффекты возникают на ранних стадиях, мой подход к моделированию выше разумнее, чем сплайны?
Также обратите внимание, что хотя я в значительной степени извлекла все эти данные, есть еще много других сообществ, которые нужно изучить (и некоторые из них, такие как superuser и serverfault, имеют одинаково большие выборки, чтобы извлечь из них), поэтому вполне разумно предложить в будущем анализ, который я использую протяженный образец, чтобы исследовать любые отношения.