Как влияет формула пророчества Спирмена-Брауна на вопросы разной сложности?


10

Как на результаты формулы пророчества Спирмена-Брауна влияют вопросы теста с различными трудностями или оценщиками, которые являются легкими или твердыми учениками. В одном уважаемом тексте говорится, что SB затронут, но не дает подробностей. (См. Цитату ниже.)

Guion, R.M (2011). Оценка, измерение и прогнозирование кадровых решений, 2-е издание. Стр. 477

«Надежность может быть повышена путем объединения оценщиков с использованием уравнения Спирмена-Брауна. ... Если надежность одного рейтинга равна .50, то надежность двух, четырех или шести параллельных рейтингов будет приблизительно равна 0,67, 0,80. и .86 соответственно "(Houston, Raymond & Svec, 1991, p. 409). Мне нравится эта цитата, потому что слово приблизительно признает, что статистические оценки являются «в среднем» утверждениями того, что можно ожидать, если все пойдет так, как предполагалось. Кроме того, оперативное слово параллельно. Усреднение рейтингов (или использование Spearman-Brown), если один оценщик, например, систематически снисходителен, просто не соответствует предположению. Если каждый из эссе оценивается двумя оценщиками, один из которых более снисходительный, чем другой, то проблема заключается в том, чтобы использовать два теста с множественным выбором неравной сложности (непараллельные формы). Баллы, основанные на разных (несоответствующих) формах теста, не сопоставимы. Так же и со смешиванием мягких и сложных оценщиков; достоверность объединенных оценок неверно оценивается уравнением Спирмена-Брауна в классической теории испытаний. Дела хуже, если каждый судья определяет конструкцию немного по-другому ".


1
Я думаю, что проблема с поиском заслуживающего доверия источника заключается в том, что ответ исходит из теории испытаний, и это становится очевидным, если вы понимаете основную теорию и, в частности, ограничения нашей способности оценивать надежность. Вот почему Гион не удосужился объяснить это. Но в любом случае, удачи в поиске - возможно, кто-то где-то знает лучшее объяснение.
Джереми Майлз

Ответы:


10

Хотя я чувствую себя немного застенчивым, противоречащим как «уважаемому тексту», так и другому пользователю резюме, мне кажется, что формула Спирмена-Брауна не зависит от наличия предметов различной сложности. Безусловно, формула Спирмена-Брауна обычно выводится из предположения, что у нас есть параллельные предметы, что подразумевает (среди прочего), что предметы имеют одинаковую сложность. Но оказывается, что это предположение не является необходимым; это может быть смягчено, чтобы позволить неравные трудности, и формула Спирмена-Брауна все еще сохранится. Я продемонстрирую это ниже.


Напомним, что в классической теории испытаний измерение считается суммой компонента «истинной оценки» и компонента ошибки , то есть причем и коррелированы. Предположение о параллельных элементах состоит в том, что все элементы имеют одинаковые истинные оценки, отличающиеся только компонентами ошибок, хотя предполагается, что они имеют одинаковую дисперсию. В символах, для любой пары элементов иXTE

X=T+E,
TEXX
T=Tvar(E)=var(E).
Давайте посмотрим, что произойдет, когда мы ослабим первое предположение, так что элементы могут различаться по своим трудностям, а затем получим достоверность общего балла теста в соответствии с этими новыми допущениями. В частности, предположим, что истинные оценки могут отличаться на аддитивную константу, но ошибки по-прежнему имеют одинаковую дисперсию. В символах Любые различия в сложности фиксируются аддитивной константой. Например, если , то баллы по имеют тенденцию быть выше, чем баллы по , так что «легче», чем . Мы могли бы назвать их по существу параллельными
T=T+cvar(E)=var(E).
c>0XXXXпредметы, по аналогии с предположением «существенной тау-эквивалентности», которая аналогичным образом ослабляет тау-эквивалентную модель.

Теперь для определения достоверности формы испытаний таких предметов. Рассмотрим тест, состоящий из существу параллельных элементов, сумма которых дает оценку теста. Надежность, по определению, представляет собой отношение истинной дисперсии баллов к наблюдаемой дисперсии баллов. Что касается надежности отдельных элементов, то из определения существенного параллелизма следует, что они имеют одинаковую надежность, которую мы обозначаем с помощью и - истинная дисперсия баллов и - дисперсия ошибок. Для достоверности итоговой оценки, мы сначала исследуем дисперсию итоговой оценки, которая равна kρ=σT2/(σT2+σE2)σT2σE2

var(i=1kTi+Ei)=var(i=1kT+ci+Ei)=k2σT2+kσE2,
, где (не нижний индекс) любое произвольное верно оценка , что истинные оценки всех элементов меню могут быть сдвинуты к через их точки зрения постоянных, является истинная дисперсия баллов, а - дисперсия ошибок. Обратите внимание, что постоянные условия выпадают! Это ключ. Таким образом, достоверность итоговой оценки за тест составляет TσT2σE2
k2σT2k2σT2+kσE2=kσT2kσT2+σX2σT2=kρ1+(k1)ρ,
это просто классическая формула Спирмена-Брауна, без изменений. Это показывает, что даже при изменении «сложности» предметов, определяемых как их средние баллы, формула Спирмена-Брауна все еще сохраняется.

@JeremyMiles поднимает несколько интересных и важных моментов о том, что может произойти, когда мы увеличиваем продолжительность теста «в реальном мире», но, по крайней мере, в соответствии с идеализированными предположениями классической теории испытаний, вариации в сложности предметов не имеют значения для надежности Форма теста (в резком контрасте с предположениями современной теории ответа предмета!). Эта же основная линия рассуждения также объясняет, почему мы обычно говорим о существенной тау-эквивалентности, а не тау-эквивалентности, потому что большинство всех важных результатов справедливо для более мягкого случая, когда трудности с предметом (т. Е. Средние) могут различаться.


2
Да, хорошая мысль. То, что я написал, не обязательно верно.
Джереми Майлз

5

Это не легко сказать.

Во-первых, Спирмен-Браун предполагает, что тестовые элементы (или оценщики) отбираются случайным образом из совокупности тестовых элементов (или оценщиков). Это никогда не является правдой, особенно в отношении тестов, потому что составление большего количества элементов затруднительно, и вполне вероятно, что вы начнете использовать лучшие элементы - тогда вы обнаружите, что тест должен быть более длительным, поэтому вы «очистить бочку» для предметов.

Во-вторых, элементы отличаются по своей надежности, и надежность не обязательно связана с трудностью (если это помогает, подумайте о наклоне и пересечении кривой характеристики элемента в теории отклика элемента). Тем не менее, расчет надежности (скажем, альфа Кронбаха, который является формой внутриклассовой корреляции) предполагает, что все достоверности равны (они предполагают существенную тау-эквивалентную модель измерения - то есть, что все нестандартные достоверности каждого элемента - все равны). Это почти наверняка неправильно. Добавление предметов может идти вверх, может идти вниз. Это зависит от предметов.

Вот еще один способ думать об этом. Я случайным образом выбираю выборку из популяции и вычисляю среднее значение и стандартную ошибку среднего. Это среднее значение будет объективной оценкой среднего значения для населения. Затем я увеличиваю размер моей выборки - ожидаемое значение среднего значения такое же, но маловероятно, что оно на самом деле будет таким же - оно почти наверняка увеличится или уменьшится. Так же, как я ожидаю, что стандартная ошибка станет меньше, но величина, которую она сжимает, будет непостоянной (и для стандартной ошибки не может быть больше).


Дает ли формула SB минимальное, максимальное или некоторое промежуточное значение для ожидаемой надежности? Кроме того, поскольку надежность рассчитывается с точки зрения корреляций, почему простые / сложные элементы или оценщики имеют какой-либо эффект?
Джоэл В.

Формула SB дает ожидаемую надежность. Это может быть выше или ниже, чем это. Одна из проблем заключается в том, что существует более одного способа расчета надежности, и сделанные ими предположения редко выполняются. Все это отчасти укоренено в классической теории испытаний - теория отклика элемента представляет собой более современный способ думать об измерении, и в большинстве случаев это имеет смысл, например, надежность теста не одинакова для каждого человек в IRT.
Джереми Майлз

Если вопрос очень сложный или очень простой, это может повлиять на корреляцию. Например, «7 * 11» может быть надежным вопросом для 3-го класса, но для студентов-математиков это не так.
Джереми Майлз

1
<тест должен быть более длительным, поэтому вы будете «очищать бочку» от предметов. Ясно, что у вас был реальный мировой опыт по составлению тестов.
Джоэл В.
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.