Оба метода основаны на одной и той же идее - разложения наблюдаемой дисперсии на разные части или компоненты. Однако есть небольшие различия в том, рассматриваем ли мы предметы и / или оценщиков как фиксированные или случайные эффекты. Помимо того, что часть общей изменчивости объясняется коэффициентом между (или насколько отклонение между отклонениями от остаточной дисперсии), F-критерий мало что говорит. По крайней мере, это справедливо для одностороннего ANOVA, где мы предполагаем фиксированный эффект (и который соответствует ICC (1,1), описанному ниже). С другой стороны, ICC обеспечивает ограниченный индекс при оценке надежности рейтинга для нескольких «заменяемых» оценщиков или однородности среди аналитических единиц.
Мы обычно делаем следующее различие между различными видами ICC. Это следует из основополагающей работы Shrout и Fleiss (1979):
- Модель односторонних случайных эффектов , ICC (1,1): каждый элемент оценивается разными оценщиками, которые считаются отобранными из большого пула потенциальных оценщиков, следовательно, они рассматриваются как случайные эффекты; ICC затем интерпретируется как% от общей дисперсии, обусловленной дисперсией предметов / предметов. Это называется согласованность ICC.
- Модель двусторонних случайных эффектов , ICC (2,1): оба фактора - оценщики и предметы / субъекты - рассматриваются как случайные эффекты, и у нас есть два компонента дисперсии (или средних квадратов) в дополнение к остаточной дисперсии; мы также предполагаем, что оценщики оценивают все предметы / предметы; ICC дает в этом случае% дисперсии, относящейся к оценщикам + предметы / предметы.
- Двусторонняя смешанная модель , ICC (3,1): в отличие от одностороннего подхода, здесь оценщики рассматриваются как фиксированные эффекты (без обобщения за пределами рассматриваемой выборки), но предметы / субъекты рассматриваются как случайные эффекты; Единицей анализа может быть индивидуальный или средний рейтинг.
Это соответствует случаям 1-3 в их Таблице 1. Дополнительное различие может быть сделано в зависимости от того, считаем ли мы, что наблюдаемые оценки являются средними для нескольких оценок (они называются ICC (1, k), ICC (2, k), и ICC (3, k)) или нет.
В общем, вы должны выбрать правильную модель (односторонняя или двусторонняя), и это в основном обсуждается в статье Шрута и Флейса. Односторонняя модель, как правило, дает меньшие значения, чем двусторонняя модель; аналогично, модель случайных эффектов обычно дает более низкие значения, чем модель с фиксированными эффектами. ICC, полученный из модели с фиксированными эффектами, рассматривается как способ оценки согласованности оценщиков (поскольку мы игнорируем дисперсию оценок), в то время как для модели со случайными эффектами мы говорим об оценке согласия оценщиков (независимо от того, являются ли оценщики взаимозаменяемыми или нет). Только двусторонние модели включают взаимодействие субъекта с оценкой, которое может представлять интерес при попытке распутать нетипичные модели рейтинга.
На приведенном ниже рисунке легко копия / вставить пример из ICC()
в психологически пакете (данные из Shrout и Fleiss, 1979). Данные состоят из 4 судей (J), оценивающих 6 предметов или целей (S), и суммированы ниже (я предполагаю, что они хранятся в виде названной матрицы R sf
)
J1 J2 J3 J4
S1 9 2 5 8
S2 6 1 3 2
S3 8 4 6 8
S4 7 1 2 6
S5 10 5 6 9
S6 6 2 4 7
Этот пример интересен, потому что он показывает, как выбор модели может повлиять на результаты, поэтому интерпретация исследования надежности. Все 6 моделей ICC следующие (это таблица 4 в статье Шрута и Флейса)
Intraclass correlation coefficients
type ICC F df1 df2 p lower bound upper bound
Single_raters_absolute ICC1 0.17 1.8 5 18 0.16477 -0.133 0.72
Single_random_raters ICC2 0.29 11.0 5 15 0.00013 0.019 0.76
Single_fixed_raters ICC3 0.71 11.0 5 15 0.00013 0.342 0.95
Average_raters_absolute ICC1k 0.44 1.8 5 18 0.16477 -0.884 0.91
Average_random_raters ICC2k 0.62 11.0 5 15 0.00013 0.071 0.93
Average_fixed_raters ICC3k 0.91 11.0 5 15 0.00013 0.676 0.99
Как можно видеть, рассмотрение оценщиков как фиксированных эффектов (следовательно, не пытаясь обобщить для более широкого пула оценщиков) дало бы намного более высокое значение для однородности измерения. (Подобные результаты могут быть получены с помощью пакета irr ( icc()
), хотя мы должны поиграть с другой опцией для типа модели и единицы анализа.)
О чем говорит нам подход ANOVA? Нам нужно подобрать две модели, чтобы получить соответствующие средние квадраты:
- односторонняя модель, которая рассматривает только предмет; это позволяет разделить оцениваемые цели (между группами MS, BMS) и получить оценку в пределах ошибки (WMS)
- двусторонняя модель, которая рассматривает субъект + оценщик + их взаимодействие (когда нет повторений, этот последний член будет смешан с остатками); это позволяет оценить основной эффект (JMS), который можно учесть, если мы хотим использовать модель случайных эффектов (т.е. мы добавим ее к общей изменчивости)
Не нужно смотреть на F-тест, здесь интересны только MS.
library(reshape)
sf.df <- melt(sf, varnames=c("Subject", "Rater"))
anova(lm(value ~ Subject, sf.df))
anova(lm(value ~ Subject*Rater, sf.df))
Теперь мы можем собрать различные части в расширенной таблице ANOVA, которая выглядит так, как показано ниже (это таблица 3 в статье Шрута и Флейса):
(источник: mathurl.com )
где первые два ряда взяты из односторонней модели, а следующие два - из двухстороннего ANOVA.
Все формулы легко проверить в статье Шрута и Флейса, и у нас есть все, что нам нужно, чтобы оценить надежность для одной оценки . Как насчет достоверности среднего значения множественных оценок (которое часто представляет собой интерес к межучрежденческим исследованиям)? Следуя Hays and Revicki (2005), его можно получить из приведенного выше разложения, просто изменив общее значение MS, рассматриваемое в знаменателе, за исключением модели двусторонних случайных эффектов, для которой мы должны переписать соотношение MS.
- В случае ICC (1,1) = (BMS-WMS) / (BMS + (k-1) • WMS) общая надежность вычисляется как (BMS-WMS) /BMS=0,443.
- Для ICC (2,1) = (BMS-EMS) / (BMS + (k-1) • EMS + k • (JMS-EMS) / N) общая надежность составляет (N • (BMS-EMS)) / (Н • BMS + JMS-EMS) = 0,620.
- Наконец, для ICC (3,1) = (BMS-EMS) / (BMS + (k-1) • EMS) мы имеем надежность (BMS-EMS) /BMS=0,909.
Опять же, мы обнаруживаем, что общая надежность выше, если рассматривать оценщиков как фиксированные эффекты.
Ссылки
- Shrout, PE и Fleiss, JL (1979). Внутриклассные корреляции: использование при оценке достоверности оценок . Психологический вестник , 86, 420-3428.
- Хейс Р.Д. и Ревицки Д. (2005). Надежность и обоснованность (в том числе отзывчивость). В Фейерс, П. и Хейс, RD (ред.), Оценка качества жизни в клинических испытаниях , 2-е изд., С. 25-39. Издательство Оксфордского университета.