Является ли «Охота на Снарка» Джоэла Спольски достоверным статистическим анализом содержания?

Если вы в последнее время читали бюллетени сообщества, вы, вероятно, видели сообщение «Охота на Снарка» на официальном блоге StackExchange Джоэла Спольски, генерального директора сети StackExchange. Он обсуждает статистический анализ, проведенный на примере комментариев SE, чтобы оценить их «дружелюбие» с точки зрения внешнего пользователя. Комментарии были случайным образом взяты из StackOverflow, и аналитики контента были членами сообщества Amazon Mechanical Turk, рынка труда, который связывает компании с работниками, которые выполняют небольшие короткие задачи за приемлемую плату.

Не так давно я был аспирантом по политологии, и одним из занятий, который я выбрал, был статистический анализ содержания . Окончательный проект класса, фактически вся его цель, состоял в том, чтобы провести подробный анализ военных сообщений New York Times, чтобы проверить, были ли правильны многие предположения американцев относительно освещения новостей во время войн (спойлер: свидетельства предполагают, что они не). Проект был огромным и довольно веселым, но самым болезненным его разделом был «этап обучения и проверки надежности», который произошел до того, как мы смогли провести полный анализ. Он преследовал две цели (подробное описание см. На стр. 9 связанного документа, а также ссылки на стандарты надежности интеркодеров в статистической литературе по контент-анализу):

Подтвердите, что все кодеры, то есть читатели контента, были обучены одинаковым качественным определениям. В анализе Джоэла это означало, что все будут точно знать, как проект определяет «дружественный» и «недружественный».
Подтвердите, что все кодеры интерпретировали эти правила надежно, то есть мы выбрали нашу выборку, проанализировали подмножество, а затем статистически продемонстрировали, что наши попарные корреляции по качественным оценкам были довольно похожи.

Проверка надежности повредила, потому что мы должны были сделать это три или четыре раза. Пока -1- не был заблокирован и -2- не показал достаточно высокие попарные корреляции, наши результаты для полного анализа были подозрительными. Они не могли быть продемонстрированы действительными или недействительными. Самое главное, мы должны были сделать пилотные испытания надежности перед окончательной выборкой.

Мой вопрос заключается в следующем: в статистическом анализе Джоэла не было экспериментального теста на надежность и не было установлено никаких эксплуатационных определений «дружелюбия». Были ли окончательные данные достаточно надежными, чтобы что-либо сказать о статистической достоверности его результатов?

С одной стороны, рассмотрим этот пример о значении надежности кодировщика и последовательных эксплуатационных определений. Более подробно из того же источника вы можете прочитать о тестах надежности пилота (пункт 5 в списке).

Согласно предложению Энди В. в своем ответе, я пытаюсь вычислить различные статистические данные о надежности набора данных, которые доступны здесь, используя эту серию команд в R (обновляется по мере того, как я вычисляю новую статистику).

Описательная статистика здесь

Процентное соглашение (с допуском = 0): 0,0143

Процентное соглашение (с допуском = 1): 11,8

Альфа Криппендорфа : 0.1529467

Я также попытался модель ответа предмета для этих данных в другом вопросе.

reliability agreement-statistics methodology

— Кристофер
источник

Они публично обнародовали данные кодирования, чтобы можно было оценить надежность самих кодеров, если бы захотел.

— Энди В.

Re: # 1 - Следует отметить, что это было не столько упражнение, если комментарии были дружественными или нет, но скорее упражнение, если комментарии воспринимались как дружественные или нет для внешнего пользователя.

— Рэйчел

@ Рейчел, я не думаю, что это правильно. Если бы они измеряли, как посторонние воспринимают комментарии к SO, им понадобился бы довольно большой выборочный набор, чем 20 человек.

— Кристофер

Это разница между заключением о том, как посторонние воспринимают комментарии, и заключением о самих комментариях. В первом случае вам понадобится гораздо большая выборка людей, и напрашивается вывод: «Аутсайдеры считают, что 2,3% комментариев SO недружественные». Во-вторых, это «2,3% комментариев SO недружественные». Это разные выводы, и я думаю, что второй может быть невозможно сделать, потому что мы не можем продемонстрировать, что кодеры оценивают комментарии аналогично без теста на надежность.

— Кристофер

@ Кристофер Дружелюбие очень субъективно, хотя. В зависимости от того, кого вы спрашиваете, один и тот же комментарий может рассматриваться как дружеский и недружественный. Вот почему я думаю, что более важно получить точку зрения от большого количества случайных пользователей, а не от кого-то, кто имеет ту же точку зрения, что и вы.

— Рэйчел

Ответы:

Процентное соглашение (с допуском = 0): 0,0143

Процентное соглашение (с допуском = 1): 11,8

Альфа Криппендорфа: 0.1529467

Эти меры по соглашению утверждают, что категориального соглашения практически не существует - каждый кодер имеет свою собственную внутреннюю точку отсечения для оценки комментариев как «дружественных» или «недружественных».

Если мы предположим, что три категории упорядочены, то есть: Недружественный <Нейтральный <Дружественный, мы также можем рассчитать внутриклассовую корреляцию как еще один показатель согласия. На случайной выборке из 1000 комментариев ICC (2,1) составляет 0,28, а ICC (2, k) - 0,88. Это означает, что если вы берете только одного из 20 оценщиков, результаты будут очень ненадежными (.28), если вы берете в среднем 20 оценщиков, результаты надежны (.88). Принимая разные комбинации трех случайных оценщиков, усредненная достоверность составляет от .50 до .60, что все равно будет считаться слишком низким.

Средняя двумерная корреляция между двумя кодерами составляет .34, что также довольно мало.

Если эти меры соглашения рассматриваются как мера качества кодеров (которые на самом деле должны показать хорошее согласие), ответ таков: они не являются хорошими кодерами и должны быть лучше обучены. Если это рассматривается как мера «насколько хорошо спонтанное согласие среди случайных людей», ответ также: не очень высокий. В качестве ориентира, средняя корреляция для оценок физической привлекательности составляет около .47 - .71 [1]

[1] Langlois, JH, Kalakanis, L., Rubenstein, AJ, Larson, A., Hallam, M. & Smoot, M. (2000). Максимы или мифы о красоте? Мета-аналитический и теоретический обзор. Психологический вестник, 126, 390–423. DOI: 10,1037 / 0033-2909.126.3.390

— Феликс С
источник

Надежность баллов часто интерпретируется в терминах Классической Теории Тестов . Здесь каждый имеет истинный балл, Xно при любом конкретном результате вы наблюдаете не только истинный балл, но и истинный балл с некоторой ошибкой (то есть Observed = X + error). Теоретически, принимая несколько наблюдаемых мер одного и того же базового теста (делая некоторые предположения о распределении ошибок этих тестов), можно затем измерить ненаблюдаемую истинную оценку.

Отметьте здесь, в этой структуре, что вы должны предположить, что ваши множественные наблюдаемые меры измеряют один и тот же базовый тест. Плохая надежность тестируемых элементов часто принимается как свидетельство того, что наблюдаемые измерения не измеряют один и тот же базовый тест. Это просто соглашение в данной области, хотя низкая надежность сама по себе не доказывает (в каком-либо статистическом смысле), что элементы не измеряют одну и ту же конструкцию. Таким образом, можно утверждать, что, приняв множество наблюдаемых мер, даже с очень ненадежными тестами, можно получить надежную меру истинной оценки.

Следует также отметить, что классическая теория тестов не обязательно является единственным способом интерпретации таких тестов, и многие ученые утверждают, что концепция скрытых переменных и теория отклика элемента всегда более уместна, чем классическая теория тестов.

Также аналогичное неявное допущение в классической теории испытаний, когда люди говорят, что надежность слишком высока. В нем ничего не говорится о достоверности того, измеряет ли конкретный элемент (ы) какой-либо базовый тест, но о том, что когда надежность слишком высока, исследователи принимают это как доказательство того, что ошибки между тестами не являются независимыми.

Я не совсем уверен, почему вы так не любите входить и рассчитывать надежность. Почему нельзя сделать это и впоследствии интерпретировать анализ в свете этой дополнительной информации?

— Энди У
источник

Итак, сначала позвольте мне отметить, что я больше не учусь в аспирантуре по хорошей причине: это была не моя сильная сторона. Я мог бы неправильно помнить методологию. Тем не менее, я думаю, что вы и я, возможно, говорим о разных мерах надежности, или, по крайней мере, существуют исследования, которые предлагают измерить надежность интеркодера до того, как будет проведен окончательный анализ, для достоверности. Я отредактировал этот вопрос, включив в него один источник, который я нашел в Интернете, который цитирует значительно больше исследований по этому вопросу.

— Кристофер

Это другой контекст (надежность дихотомических тестовых заданий вместо некоторого непрерывного результата), но логика функционально та же. Следовательно, почему я не упомянул какую-либо конкретную меру надежности (их много). Ваша цитата не намекает на что-либо before the final analysis, поэтому я не совсем уверен, откуда взялась эта идея.

— Энди В.

Ах, ха. Вы правы, это не совсем требование. Читая дальше в той ссылке, которую я разместил, похоже, что пилотные тесты считаются лучшей методологической практикой (ищите в ней пилотный тест).

— Кристофер

Я изменил свой вопрос, чтобы учесть новую информацию. Спасибо за помощь в исправлении моей ошибки.

— Кристофер

Другой вопрос .

— Кристофер