12 учителей обучают 600 учеников. 12 преподавателей, преподаваемых этими учителями, имеют размер от 40 до 90 учеников, и мы ожидаем систематических различий между когортами, поскольку аспиранты были непропорционально распределены по отдельным когортам, а предыдущий опыт показал, что аспиранты в среднем набирают значительно выше, чем студенты старших курсов.
Учителя оценили все документы в своей группе и поставили им оценку из 100.
Каждый учитель также просмотрел один случайно выбранный лист работы трех других учителей и дал ему оценку из 100. У каждого учителя было три его / ее работы, помеченные другим учителем. Таким образом, 36 различных документов были помечены таким образом, и я называю это своими данными калибровки.
Я также вижу, сколько аспирантов было в каждой когорте.
Мои вопросы:
А) Как я могу использовать эти данные калибровки, чтобы отрегулировать исходные метки, чтобы сделать их более справедливыми? В частности, я бы хотел как можно больше смыть последствия чрезмерно щедрых / не щедрых создателей.
Б) Насколько уместны мои данные калибровки? У меня не было выбора в довольно ограниченных 36 точках данных калибровки, которые я получил в этом курсе, и у меня нет никакой возможности собирать больше в течение текущего семестра. Тем не менее, если эта ситуация повторится, я смогу собрать больше данных калибровки или собрать другие типы данных калибровки.
Этот вопрос является родственником популярного вопроса, который я задавал: как мне лучше всего справиться с эффектами маркеров с различными уровнями щедрости при оценке студенческих работ? , Тем не менее, это другой курс, и я не уверен, насколько полезным будет чтение этого вопроса в качестве фона для этого текущего, поскольку главная проблема заключалась в том, что у меня не было данных калибровки.
lm(score ~ gradStudent + ... + teacherID
должно это сделать.