Как я могу использовать эти данные для калибровки маркеров с разным уровнем щедрости при оценке студенческих работ?


9

12 учителей обучают 600 учеников. 12 преподавателей, преподаваемых этими учителями, имеют размер от 40 до 90 учеников, и мы ожидаем систематических различий между когортами, поскольку аспиранты были непропорционально распределены по отдельным когортам, а предыдущий опыт показал, что аспиранты в среднем набирают значительно выше, чем студенты старших курсов.

Учителя оценили все документы в своей группе и поставили им оценку из 100.

Каждый учитель также просмотрел один случайно выбранный лист работы трех других учителей и дал ему оценку из 100. У каждого учителя было три его / ее работы, помеченные другим учителем. Таким образом, 36 различных документов были помечены таким образом, и я называю это своими данными калибровки.

Я также вижу, сколько аспирантов было в каждой когорте.

Мои вопросы:

А) Как я могу использовать эти данные калибровки, чтобы отрегулировать исходные метки, чтобы сделать их более справедливыми? В частности, я бы хотел как можно больше смыть последствия чрезмерно щедрых / не щедрых создателей.

Б) Насколько уместны мои данные калибровки? У меня не было выбора в довольно ограниченных 36 точках данных калибровки, которые я получил в этом курсе, и у меня нет никакой возможности собирать больше в течение текущего семестра. Тем не менее, если эта ситуация повторится, я смогу собрать больше данных калибровки или собрать другие типы данных калибровки.

Этот вопрос является родственником популярного вопроса, который я задавал: как мне лучше всего справиться с эффектами маркеров с различными уровнями щедрости при оценке студенческих работ? , Тем не менее, это другой курс, и я не уверен, насколько полезным будет чтение этого вопроса в качестве фона для этого текущего, поскольку главная проблема заключалась в том, что у меня не было данных калибровки.

Ответы:


6

Это звучит как отличная возможность использовать систему рекомендации матричной факторизации . Вкратце, это работает следующим образом:

  • Поместите свои наблюдения в частично наблюдаемую матрицу где M i j - учитель, который я дал ученику j .MMяJяJ

  • Предположим, что эта матрица является внешним произведением некоторых скрытых векторов признаков, и s -, то есть M i j = t i s j .TsMяJзнак равноTяsJ

  • Σя,J(TяsJ-MяJ)2M

  • TssT

MяJзнак равноΣКзнак равно1NsяКTКJ и снова попытайтесь минимизировать квадратичную ошибку реконструкции).


РЕДАКТИРОВАТЬ: чтобы иметь четко определенную проблему, вам нужно иметь больше матричных операций, чем скрытых параметров (или вы можете использовать некоторую регуляризацию). У вас просто нет этого здесь (у вас есть 636 наблюдений и 612 скрытых параметров), поэтому матричная факторизация может работать не очень хорошо - я не работал с ними на таких маленьких выборках, поэтому я действительно не знаю.

Если калибровка оказывается недостаточной для использования хорошей модели рекомендации, вы можете попробовать многоуровневую регрессию Score ~ IsGradStudent + <whatever other student covariates you have> + (1|Teacher)(игнорируя данные калибровки), чтобы извлечь оценки аддитивного смещения учителя, а затем проверить, согласуется ли это смещение с данными калибровки, которые вы взял. (Вы должны учитывать гетероскедастичность со стороны учителя, если это возможно.) Это более произвольно, но может привести к менее серьезным проблемам со сбором данных.


Чтобы расширить это, я, вероятно, начну с простой модели с учительскими фиксированными эффектами и потенциально кластеризованными устойчивыми стандартными ошибками (см. Этот пост в блоге для обсуждения этого в R), а затем сравню фиксированные эффекты для любых выбросов. В R что-то вроде lm(score ~ gradStudent + ... + teacherIDдолжно это сделать.
Якобус

2

Вот пара связанных подходов.

Возьмите набор работ, помеченных более чем одним учителем, поскольку в них содержится наибольшая информация об эффектах учителя и за пределами этих работ, эффекты учителя и когорты смешаны (если был какой-то способ получить эффект когорты - возможно, через GPA или какой-то другой предиктор, например, тогда вы могли бы использовать все данные, но это немного усложнит модели).

язнак равно1,2,,,,NJзнак равно1,2,,,,,мYяJ,язнак равно1,2,,,,м

Сначала вы должны рассмотреть свою модель на предмет применения эффекта маркера. Это добавка? Это мультипликативный? Вам нужно беспокоиться о граничных эффектах (например, будет ли аддитивный или мультипликативный эффект в логит-масштабе лучше)?

пяJзнак равномяJ/100пжурнал(пяJ/(1-пяJ)

(У вас не будет достаточно данных, чтобы оценить форму щедрости, а также ее размер. Вы должны выбрать модель из своего понимания ситуации. Вам также нужно будет игнорировать любую возможность взаимодействия; вы не есть данные для этого)

Возможность 1 - простая аддитивная модель. Это может подойти, если никакие отметки не были действительно близки к 0 или 100:

Е(YяJ)знак равноμя+τJ

Это по сути двухсторонний ANOVA. Вам нужны ограничения на это, так что вы можете настроить кодирование отклонения / настроить модель так, чтобы эффекты маркера были равны 0, или вы можете настроить модель, в которой один маркер является базовой линией (чей эффект равен 0, и чей маркер вы постараюсь настроить каждый второй маркер в сторону).

τ^JYКJприлзнак равноYКJ-τ^J

Е(YяJ)знак равноμяτJτ

τJ^

1-пзнак равно(100-м)/100

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.