Межрассовая надежность для порядковых или интервальных данных


25

Какие методы оценки надежности наиболее подходят для порядковых или интервальных данных?

Я считаю, что «Совместная вероятность соглашения» или «Каппа» предназначены для номинальных данных. Хотя можно использовать «Пирсон» и «Спирмен», они в основном используются для двух оценщиков (хотя они могут использоваться для более чем двух оценщиков).

Какие другие меры подходят для порядковых или интервальных данных, то есть для более чем двух оценщиков?

Ответы:


29

Статистика Каппа ( ) - это показатель качества, который сравнивает наблюдаемое согласие между двумя оценщиками по номинальной или порядковой шкале с согласием, ожидаемым случайно (как если бы оценщики подбрасывали). Существуют дополнения для случая нескольких оценщиков (2, с. 284–291). В случае порядковых данных вы можете использовать взвешенное κ , которое в основном читается как обычно κ с недиагональными элементами, способствующими мере согласованности. Fleiss (3) предоставил рекомендации по интерпретации значений κ, но это всего лишь правила большого пальца.κ κκκ

статистики асимптотический эквивалентны МТПУ оценок от двухсторонней случайных эффектов ANOVA, но тесты на значимость и SE приходит от обычных рамок ANOVA не действительны с двоичными данными. Лучше использовать загрузчик, чтобы получить доверительный интервал (CI). Fleiss (8) обсудил связь между взвешенной каппой и внутриклассовой корреляцией (ICC).κ

Следует отметить, что некоторым психометристам не очень нравится потому что на него влияет распространенность объекта измерения, так же как на прогнозные значения влияет распространенность рассматриваемого заболевания, и это может привести к парадоксальным результатам.κ

Надежность между оценщиками для оценщиков можно оценить с помощью коэффициента согласования Кендалла, Вт . Когда количество предметов или единиц, которые имеют рейтинг n > 7 , k ( n - 1 ) W χ 2 ( n - 1 ) . (2, с. 269–270). Это асимптотическое приближение справедливо для умеренных значений n и k (6), но с менее чем 20 пунктами F или тесты перестановки являются более подходящими (7). Существует тесная связь между Спирманом ρ и Кендаллом WКWN>7К(N-1)W~χ2(N-1)NКFρWстатистика: может быть напрямую рассчитана из среднего значения попарных корреляций Спирмена (только для несвязанных наблюдений).W

Полихорическая (порядковые данные) корреляция также может использоваться как мера межрегионального согласия. Действительно, они позволяют

  • оценить, какой была бы корреляция, если бы рейтинги были сделаны по непрерывной шкале,
  • проверить предельную однородность между оценщиками.

Фактически можно показать, что это частный случай моделирования скрытых признаков, который позволяет ослабить предположения о распределении (4).

Что касается непрерывных (или предполагаемых) измерений, то ICC, который количественно оценивает долю дисперсии, относящуюся к вариации между субъектами, в порядке. Опять же, рекомендуется загружать CI. Как сказал @ars, существует в основном две версии - соглашение и согласованность - которые применимы в случае исследований согласия (5) и которые в основном отличаются по способу вычисления суммы квадратов; ICC «согласованности» обычно оценивается без учета взаимодействия Item × Rater. Инфраструктура ANOVA полезна для конкретного блочного дизайна, где нужно минимизировать количество оценок ( BIBD ) - фактически, это было одним из первоначальных мотивов работы Флейса. Это также лучший способ для нескольких оценщиков, Естественное продолжение этого подхода называется теорией обобщения . Краткий обзор дается в Rater Models: Введение , в противном случае стандартным справочником является книга Бреннана, рассмотренная в Psychometrika 2006 71 (3) .

Что касается общих ссылок, я рекомендую главу 3 Статистики в психиатрии от Грэма Данна (Hodder Arnold, 2000). Для более полной обработки исследований надежности, лучшая ссылка на сегодняшний день

Данн Г. (2004). Разработка и анализ исследований надежности . Арнольд. Смотрите обзор в Международном журнале эпидемиологии .

Хорошее онлайн-введение доступно на веб-сайте Джона Уберсакса, « Внутриклассовая корреляция и связанные методы» ; он включает в себя обсуждение плюсов и минусов подхода ICC, особенно в отношении порядковых шкал.

Соответствующие R-пакеты для двусторонней оценки (порядковые или непрерывные измерения) находятся в представлении задач психометрии ; Я обычно использую пакеты psy , psych или irr . Есть также пакет согласия , но я никогда не использовал его. Для работы с более чем двумя оценщиками пакет lme4 - это способ, позволяющий легко включать случайные эффекты, но большинство схем надежности можно проанализировать, используя только aov()потому, что нам нужно только оценить компоненты дисперсии.

Ссылки

  1. J Коэн. Взвешенная каппа: Соглашение о номинальной шкале с учетом разногласий по частичному кредиту. Психологический вестник , 70 , 213-220, 1968.
  2. S Siegel и Jr N Джон Кастеллан. Непараметрическая статистика для поведенческих наук . McGraw-Hill, второе издание, 1988.
  3. JL Fleiss. Статистические методы для тарифов и пропорций . Нью-Йорк: Wiley, Второе издание, 1981.
  4. JS Uebersax. Коэффициенты тетрахорической и полихорической корреляции . Веб-сайт Статистических методов для Соглашения о рейтере, 2006. Доступно по адресу: http://john-uebersax.com/stat/tetra.htm . По состоянию на 24 февраля 2010 г.
  5. ЧП Шрут и Ж.Л. Флейс. Внутриклассовая корреляция: Используется при оценке достоверности оценок . Психологический вестник , 86 , 420–428, 1979.
  6. М. Г. Кендалл и Б. Бабингтон Смит. Проблема м рейтинга . Анналы математической статистики , 10 , 275–287, 1939.
  7. P Legendre. Коэффициент соответствия . В NJ Salkind, редактор, Энциклопедия исследований дизайна . Публикации SAGE, 2010.
  8. JL Fleiss. Эквивалентность взвешенной каппы и внутриклассового коэффициента корреляции как меры надежности . Образовательные и психологические измерения , 33 , 613-619, 1973.

3
Три дополнительных упоминания: 1. За пределами Каппа: обзор мер по соглашению между участниками, выполненный Мусуми Банерджи, Мишель Капоццоли, Лаурой МакСвини и Дебаджйоти Синха 2. Надежность по показателям взаимодействия и согласование показателей эффективности: методологическое сравнение Джона У. Флинора, Джули Б. Флинор и Уильям Ф. Гроссникл
М. Тиббитс

3. Статистические методы оценки погрешности измерения (достоверности) в переменных, относящихся к спортивной медицине. Аткинсон Дж. и Невилл А.М. Первая ссылка относится к порядковым данным и обсуждает другие меры помимо каппа для порядковых данных. Второе и третье относятся к интервальным данным.
М. Тиббитс

(+1) Большое спасибо М. Тиббитс! Обычно я даю множество ссылок и примеров во время моих лекций по психометрии, в том числе и первую, которую вы цитировали, но я не знал двух других.
ЧЛ

Кроме того, порядковый пакет позволяет многоуровневое моделирование, такое как lme4, но с порядковой регрессией.
Джон

5

Корреляции внутриклассовые могут быть использованы для порядковых данных. Но есть некоторые предостережения, в первую очередь из-за того, что оценщики не могут быть выделены. Подробнее об этом и о том, как выбрать одну из версий ICC, см .:

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.