Зная , как грейдеры отличаются хорошо, но до сих пор не говорит вам , что для компенсации ранги в . Для простоты представьте только двух грейдеров. Даже если мы придем к выводу, что у 1-го класса на 5 баллов больше, чем у 2-го, это не говорит о том, что делать с двумя учениками, каждый из которых получил по 70, по одному на 1-й класс и на 2-й класс. был суровым маркером, и повысил рейтинг с 70 до 75, сохранив отметку 70 с отметкой 1 без изменений? Или мы предполагаем, что 1-й класс был чрезмерно снисходительным, сбил его ученика до 65 баллов и оставил без изменений 70-й класс 2-го класса? Мы идем на компромисс на полпути между - распространяясь на ваш случай, исходя из среднего показателя по 11 классам? Это абсолютные оценки, которые имеют значение, поэтому знание относительной щедрости недостаточно.
Ваш вывод может зависеть от того, насколько «объективным» вы считаете окончательный абсолютный результат. Одна ментальная модель - предложить каждому учащемуся «правильную» оценку - ту, которая будет присваиваться ведущим оценщиком, если у него будет время пометить каждую статью в отдельности, - к которой наблюдаемые оценки являются приблизительными. В этой модели наблюдаемые оценки должны быть компенсированы их оценщику, чтобы максимально приблизить их к их ненаблюдаемой "истинной" оценке. Другая модель может заключаться в том, что все оценки являются субъективными, и мы стремимся преобразовать каждую наблюдаемую оценку в отметку, которую, как мы предсказываем, она получила бы, если бы все оценщики рассмотрели одну и ту же бумагу и достигли какого-то компромисса или средней оценки за нее. Я считаю, что вторая модель менее убедительна как решение, даже если признание субъективности более реалистично. В образовательной среде обычно есть кто-то, кто несет конечную ответственность за оценку, чтобы гарантировать, что студенты получают «оценку, которую они заслуживают», но эта ведущая роль по существу сняла ответственность с тех самых учеников, которые, как мы уже знаем, заметно не согласны. Отсюда я предполагаю тамэто одна «правильная» оценка, которую мы стремимся оценить, но это оспариваемое предложение, которое может не соответствовать вашим обстоятельствам.
Предположим, что учащиеся A, B, C и D, все в одной и той же когорте, «должны» быть оценены как 75, 80, 85 и 90 соответственно, но их щедрый грейдер последовательно оценивает 5 баллов слишком высоко. Мы наблюдаем 80, 85, 90 и 95 и должны вычесть 5, но найти цифру для вычитания проблематично. Это невозможно сделать путем сравнения результатов между когортами, так как мы ожидаем, что когорты будут иметь средние способности. Одна из возможностей - использовать результаты теста с множественным выбором, чтобы предсказать правильные оценки по второму заданию, а затем использовать это для оценки различий между каждым классом и правильными оценками. Но делать такой прогноз нетривиально - если вы ожидаете, что между двумя оценками будет среднее значение и стандартное отклонение, вы не можете просто предположить, что вторые оценки должны соответствовать первой.
Кроме того, учащиеся различаются по относительным способностям при множественном выборе и письменных оценках. Вы можете рассматривать это как некоторый случайный эффект, формирующий компонент «наблюдаемых» и «истинных» оценок ученика, но не учитываемый их «прогнозируемой» оценкой. Если когорты систематически различаются, а учащиеся в когорте имеют тенденцию быть похожими, то не следует ожидать, что этот эффект будет усредняться до нуля в каждой когорте. Если наблюдаемые оценки когорты в среднем +5 по сравнению с их прогнозируемыми, это невозможноопределить, является ли это следствием щедрого грейдера, когорты, особенно лучше подходящей для письменной оценки, чем множественный выбор, или некоторой комбинации этих двух факторов. В крайнем случае, когорта может даже иметь более низкую способность при второй оценке, но это было более чем компенсировано очень щедрым оценщиком - или наоборот. Вы не можете разорвать это на части. Это сбито с толку.
Я также сомневаюсь в адекватности такой простой аддитивной модели для ваших данных. Оценщики могут отличаться от ведущего оценщика не только по смещению в местоположении, но и по разбросу - хотя, поскольку когорты, вероятно, различаются по однородности, вы не можете просто проверить распределение наблюдаемых оценок в каждой когорте, чтобы обнаружить это. Кроме того, большая часть распределения имеет высокие оценки, довольно близкие к теоретическому максимуму 100. Я ожидаю, что это приведет к введению нелинейности из-за сжатия вблизи максимума - очень щедрый грейдер может дать такие оценки A, B, C и D, как 85, 90, 94, 97. Это сложнее изменить, чем просто вычесть константу. Хуже того, вы можете увидеть «отсечение» - чрезвычайно щедрый грейдер может оценивать их как 90, 95, 100, 100. Это невозможнообратить вспять, и информация об относительной производительности C и D безвозвратно утеряна.
Ваши грейдеры ведут себя совсем по-другому. Вы уверены, что они отличаются только общей щедростью, а не щедростью в различных компонентах оценки? Это может стоить проверки, так как это может привести к различным осложнениям - например, наблюдаемая оценка для B может быть хуже, чем оценка для A, несмотря на то, что B на 5 баллов «лучше», даже если оценки, выставленные оценщиком для каждого компонента, являются монотонно возрастающей функцией Ведущий оценщик! Предположим, что оценка разделена между Q1 (A должен набрать 30/50, B 45/50) и Q2 (A должен набрать 45/50, B 35/50). Представьте, что грейдер очень снисходительно относится к Q1 (наблюдаемые оценки: A 40/50, B 50/50), но суров к Q2 (наблюдается: A 42/50, 30/50), тогда мы наблюдаем итоги 82 для A и 80 для B. Если вам нужно учитывать оценки компонентов,
Возможно, это расширенный комментарий, а не ответ, в том смысле, что он не предлагает конкретного решения в исходных рамках вашей проблемы. Но если ваши грейдеры уже обрабатывают около 55 документов каждая, то неужели им так плохо, что для калибровки приходится искать еще пять или десять? У вас уже есть хорошее представление о способностях студентов, поэтому вы можете выбрать образец документов из разных классов. Затем вы можете оценить, нужно ли вам компенсировать щедрость грейдера по всему тесту или по каждому компоненту, и нужно ли это делать, просто добавляя / вычитая константу, или с помощью чего-то более сложного, например, интерполяции (например, если вы беспокоитесь о линейность около 100). Но предупреждение об интерполяции: предположим, что ведущий оценщик помечает пять образцов документов как 70, 75, 80, 85 и 90, в то время как грейдер помечает их как 80, 88, 84, 93 и 96, так что есть некоторые разногласия по поводу порядка. Вы, вероятно, хотите отобразить наблюдаемые оценки от 96 до 100 на интервале от 90 до 100, а наблюдаемые оценки от 93 до 96 - на интервале от 85 до 90. Но для отметок ниже этого требуется некоторая мысль. Возможно, наблюдаемые оценки от 84 до 93 должны быть сопоставлены с интервалом от 75 до 85? Альтернативой может быть (возможно, полиномиальная) регрессия для получения формулы для «прогнозируемой истинной оценки» из «наблюдаемой оценки». Возможно, наблюдаемые оценки от 84 до 93 должны быть сопоставлены с интервалом от 75 до 85? Альтернативой может быть (возможно, полиномиальная) регрессия для получения формулы для «прогнозируемой истинной оценки» из «наблюдаемой оценки». Возможно, наблюдаемые оценки от 84 до 93 должны быть сопоставлены с интервалом от 75 до 85? Альтернативой может быть (возможно, полиномиальная) регрессия для получения формулы для «прогнозируемой истинной оценки» из «наблюдаемой оценки».