Если вы в последнее время читали бюллетени сообщества, вы, вероятно, видели сообщение «Охота на Снарка» на официальном блоге StackExchange Джоэла Спольски, генерального директора сети StackExchange. Он обсуждает статистический анализ, проведенный на примере комментариев SE, чтобы оценить их «дружелюбие» с точки зрения внешнего пользователя. Комментарии были случайным образом взяты из StackOverflow, и аналитики контента были членами сообщества Amazon Mechanical Turk, рынка труда, который связывает компании с работниками, которые выполняют небольшие короткие задачи за приемлемую плату.
Не так давно я был аспирантом по политологии, и одним из занятий, который я выбрал, был статистический анализ содержания . Окончательный проект класса, фактически вся его цель, состоял в том, чтобы провести подробный анализ военных сообщений New York Times, чтобы проверить, были ли правильны многие предположения американцев относительно освещения новостей во время войн (спойлер: свидетельства предполагают, что они не). Проект был огромным и довольно веселым, но самым болезненным его разделом был «этап обучения и проверки надежности», который произошел до того, как мы смогли провести полный анализ. Он преследовал две цели (подробное описание см. На стр. 9 связанного документа, а также ссылки на стандарты надежности интеркодеров в статистической литературе по контент-анализу):
Подтвердите, что все кодеры, то есть читатели контента, были обучены одинаковым качественным определениям. В анализе Джоэла это означало, что все будут точно знать, как проект определяет «дружественный» и «недружественный».
Подтвердите, что все кодеры интерпретировали эти правила надежно, то есть мы выбрали нашу выборку, проанализировали подмножество, а затем статистически продемонстрировали, что наши попарные корреляции по качественным оценкам были довольно похожи.
Проверка надежности повредила, потому что мы должны были сделать это три или четыре раза. Пока -1- не был заблокирован и -2- не показал достаточно высокие попарные корреляции, наши результаты для полного анализа были подозрительными. Они не могли быть продемонстрированы действительными или недействительными. Самое главное, мы должны были сделать пилотные испытания надежности перед окончательной выборкой.
Мой вопрос заключается в следующем: в статистическом анализе Джоэла не было экспериментального теста на надежность и не было установлено никаких эксплуатационных определений «дружелюбия». Были ли окончательные данные достаточно надежными, чтобы что-либо сказать о статистической достоверности его результатов?
С одной стороны, рассмотрим этот пример о значении надежности кодировщика и последовательных эксплуатационных определений. Более подробно из того же источника вы можете прочитать о тестах надежности пилота (пункт 5 в списке).
Согласно предложению Энди В. в своем ответе, я пытаюсь вычислить различные статистические данные о надежности набора данных, которые доступны здесь, используя эту серию команд в R (обновляется по мере того, как я вычисляю новую статистику).
Процентное соглашение (с допуском = 0): 0,0143
Процентное соглашение (с допуском = 1): 11,8
Альфа Криппендорфа : 0.1529467
Я также попытался модель ответа предмета для этих данных в другом вопросе.