Как я могу лучше всего справиться с эффектами маркеров с разными уровнями щедрости в оценке студенческих работ?


13

Около 600 студентов имеют оценку по обширной части оценки, которая, как можно предположить, имеет хорошую надежность / достоверность. Оценка оценивается из 100, и это тест с множественным выбором, отмеченный компьютером.

У этих 600 студентов также есть оценка по второму, второстепенному, экзамену. В этой второй части оценки они разделены на 11 групп с 11 различными оценщиками, и существует нежелательно большая степень различия между оценщиками с точки зрения их «щедрости» в маркировке или ее отсутствия. Эта вторая оценка также оценивается из 100.

Студенты не были распределены по группам случайным образом, и есть веские основания ожидать различий в уровнях квалификации между группами.

Передо мной стоит задача обеспечить, чтобы различия между маркерами когорт во втором задании не оказывали существенного преимущества / недостатка отдельным учащимся.

Моя идея состоит в том, чтобы результаты когорт по второй оценке соответствовали результатам когорт по первой, сохраняя при этом индивидуальные различия внутри когорт. Мы должны предположить, что у меня есть веские основания полагать, что производительность по этим двум задачам будет сильно коррелировать, но маркеры значительно различаются по своей щедрости.

Это лучший подход? Если нет, то что?

Было бы очень признательно, если бы ответчик мог дать несколько практических советов о том, как реализовать хорошее решение, например, в R или SPSS или Excel.


3
Отличный вопрос! Являются ли окончательные оценки для множественного выбора и частей эссе сравнимыми (т. Е. Одинаковыми числовыми диапазонами)?
gung - Восстановить Монику

2
Когда я писал этот вопрос, я думал, что это может быть в твоем переулке! Окончательные результаты в целом сопоставимы, но немного отличаются. Среднее значение в разделе с множественным выбором составляет ~ 70 с SD около 15. Среднее значение в другом разделе составляет ~ 85 с SD около 6.
user1205901 - Восстановите Монику

7
Я бы с подозрением относился к любым попыткам решить эту проблему, основываясь только на данных, которые вы описали, потому что он должен опираться на твердое (и непроверяемое) предположение об отсутствии взаимодействия между группой и производительностью на двух отдельных инструментах тестирования. Если возможно, рассмотрите вариант проведения отдельного небольшого эксперимента по калибровке грейдеров.
whuber

9
Чтобы лучше понять, в чем заключается проблема, предположим (гипотетически), что (1) две формы оценки - это множественный выбор и эссе, и (2) ваши старшие ученики, как правило, лучше справляются с вопросами по эссе. Когда вы используете свои данные для согласования баллов, вы будете смешивать эффекты грейдера с возрастными эффектами и, внося коррективы, систематически ставить в невыгодное положение старших учеников по сравнению с младшими. Независимо от того, какой сложный алгоритм вы выберете, он может лишь решить эту основную проблему. Вам нужно некоторые дополнительные данные для решения этой вмешивающихся.
whuber

3
Нужно учитывать одну вещь: насколько удобно было бы объяснять процедуру настройки студентам или другим заинтересованным сторонам: многие могут подумать, что, учитывая потенциальную проблему с маркировкой, приложить некоторые усилия для правильной калибровки маркеров не будет слишком много, если экзамен является важным.
Scortchi - Восстановить Монику

Ответы:


8

Зная , как грейдеры отличаются хорошо, но до сих пор не говорит вам , что для компенсации ранги в . Для простоты представьте только двух грейдеров. Даже если мы придем к выводу, что у 1-го класса на 5 баллов больше, чем у 2-го, это не говорит о том, что делать с двумя учениками, каждый из которых получил по 70, по одному на 1-й класс и на 2-й класс. был суровым маркером, и повысил рейтинг с 70 до 75, сохранив отметку 70 с отметкой 1 без изменений? Или мы предполагаем, что 1-й класс был чрезмерно снисходительным, сбил его ученика до 65 баллов и оставил без изменений 70-й класс 2-го класса? Мы идем на компромисс на полпути между - распространяясь на ваш случай, исходя из среднего показателя по 11 классам? Это абсолютные оценки, которые имеют значение, поэтому знание относительной щедрости недостаточно.

Ваш вывод может зависеть от того, насколько «объективным» вы считаете окончательный абсолютный результат. Одна ментальная модель - предложить каждому учащемуся «правильную» оценку - ту, которая будет присваиваться ведущим оценщиком, если у него будет время пометить каждую статью в отдельности, - к которой наблюдаемые оценки являются приблизительными. В этой модели наблюдаемые оценки должны быть компенсированы их оценщику, чтобы максимально приблизить их к их ненаблюдаемой "истинной" оценке. Другая модель может заключаться в том, что все оценки являются субъективными, и мы стремимся преобразовать каждую наблюдаемую оценку в отметку, которую, как мы предсказываем, она получила бы, если бы все оценщики рассмотрели одну и ту же бумагу и достигли какого-то компромисса или средней оценки за нее. Я считаю, что вторая модель менее убедительна как решение, даже если признание субъективности более реалистично. В образовательной среде обычно есть кто-то, кто несет конечную ответственность за оценку, чтобы гарантировать, что студенты получают «оценку, которую они заслуживают», но эта ведущая роль по существу сняла ответственность с тех самых учеников, которые, как мы уже знаем, заметно не согласны. Отсюда я предполагаю тамэто одна «правильная» оценка, которую мы стремимся оценить, но это оспариваемое предложение, которое может не соответствовать вашим обстоятельствам.

Предположим, что учащиеся A, B, C и D, все в одной и той же когорте, «должны» быть оценены как 75, 80, 85 и 90 соответственно, но их щедрый грейдер последовательно оценивает 5 баллов слишком высоко. Мы наблюдаем 80, 85, 90 и 95 и должны вычесть 5, но найти цифру для вычитания проблематично. Это невозможно сделать путем сравнения результатов между когортами, так как мы ожидаем, что когорты будут иметь средние способности. Одна из возможностей - использовать результаты теста с множественным выбором, чтобы предсказать правильные оценки по второму заданию, а затем использовать это для оценки различий между каждым классом и правильными оценками. Но делать такой прогноз нетривиально - если вы ожидаете, что между двумя оценками будет среднее значение и стандартное отклонение, вы не можете просто предположить, что вторые оценки должны соответствовать первой.

Кроме того, учащиеся различаются по относительным способностям при множественном выборе и письменных оценках. Вы можете рассматривать это как некоторый случайный эффект, формирующий компонент «наблюдаемых» и «истинных» оценок ученика, но не учитываемый их «прогнозируемой» оценкой. Если когорты систематически различаются, а учащиеся в когорте имеют тенденцию быть похожими, то не следует ожидать, что этот эффект будет усредняться до нуля в каждой когорте. Если наблюдаемые оценки когорты в среднем +5 по сравнению с их прогнозируемыми, это невозможноопределить, является ли это следствием щедрого грейдера, когорты, особенно лучше подходящей для письменной оценки, чем множественный выбор, или некоторой комбинации этих двух факторов. В крайнем случае, когорта может даже иметь более низкую способность при второй оценке, но это было более чем компенсировано очень щедрым оценщиком - или наоборот. Вы не можете разорвать это на части. Это сбито с толку.

Я также сомневаюсь в адекватности такой простой аддитивной модели для ваших данных. Оценщики могут отличаться от ведущего оценщика не только по смещению в местоположении, но и по разбросу - хотя, поскольку когорты, вероятно, различаются по однородности, вы не можете просто проверить распределение наблюдаемых оценок в каждой когорте, чтобы обнаружить это. Кроме того, большая часть распределения имеет высокие оценки, довольно близкие к теоретическому максимуму 100. Я ожидаю, что это приведет к введению нелинейности из-за сжатия вблизи максимума - очень щедрый грейдер может дать такие оценки A, B, C и D, как 85, 90, 94, 97. Это сложнее изменить, чем просто вычесть константу. Хуже того, вы можете увидеть «отсечение» - чрезвычайно щедрый грейдер может оценивать их как 90, 95, 100, 100. Это невозможнообратить вспять, и информация об относительной производительности C и D безвозвратно утеряна.

Ваши грейдеры ведут себя совсем по-другому. Вы уверены, что они отличаются только общей щедростью, а не щедростью в различных компонентах оценки? Это может стоить проверки, так как это может привести к различным осложнениям - например, наблюдаемая оценка для B может быть хуже, чем оценка для A, несмотря на то, что B на 5 баллов «лучше», даже если оценки, выставленные оценщиком для каждого компонента, являются монотонно возрастающей функцией Ведущий оценщик! Предположим, что оценка разделена между Q1 (A должен набрать 30/50, B 45/50) и Q2 (A должен набрать 45/50, B 35/50). Представьте, что грейдер очень снисходительно относится к Q1 (наблюдаемые оценки: A 40/50, B 50/50), но суров к Q2 (наблюдается: A 42/50, 30/50), тогда мы наблюдаем итоги 82 для A и 80 для B. Если вам нужно учитывать оценки компонентов,

Возможно, это расширенный комментарий, а не ответ, в том смысле, что он не предлагает конкретного решения в исходных рамках вашей проблемы. Но если ваши грейдеры уже обрабатывают около 55 документов каждая, то неужели им так плохо, что для калибровки приходится искать еще пять или десять? У вас уже есть хорошее представление о способностях студентов, поэтому вы можете выбрать образец документов из разных классов. Затем вы можете оценить, нужно ли вам компенсировать щедрость грейдера по всему тесту или по каждому компоненту, и нужно ли это делать, просто добавляя / вычитая константу, или с помощью чего-то более сложного, например, интерполяции (например, если вы беспокоитесь о линейность около 100). Но предупреждение об интерполяции: предположим, что ведущий оценщик помечает пять образцов документов как 70, 75, 80, 85 и 90, в то время как грейдер помечает их как 80, 88, 84, 93 и 96, так что есть некоторые разногласия по поводу порядка. Вы, вероятно, хотите отобразить наблюдаемые оценки от 96 до 100 на интервале от 90 до 100, а наблюдаемые оценки от 93 до 96 - на интервале от 85 до 90. Но для отметок ниже этого требуется некоторая мысль. Возможно, наблюдаемые оценки от 84 до 93 должны быть сопоставлены с интервалом от 75 до 85? Альтернативой может быть (возможно, полиномиальная) регрессия для получения формулы для «прогнозируемой истинной оценки» из «наблюдаемой оценки». Возможно, наблюдаемые оценки от 84 до 93 должны быть сопоставлены с интервалом от 75 до 85? Альтернативой может быть (возможно, полиномиальная) регрессия для получения формулы для «прогнозируемой истинной оценки» из «наблюдаемой оценки». Возможно, наблюдаемые оценки от 84 до 93 должны быть сопоставлены с интервалом от 75 до 85? Альтернативой может быть (возможно, полиномиальная) регрессия для получения формулы для «прогнозируемой истинной оценки» из «наблюдаемой оценки».


1
К сожалению, характер оценки 2 делает невозможным, чтобы грейдеры смотрели больше для целей калибровки. Вы можете думать об этом как об устном поэтическом чтении, которое было сделано однажды без записи, и которое было оценено сразу после этого. Было бы нецелесообразно планировать новые декламации исключительно для целей калибровки. Чтобы ответить на ваш другой вопрос, у Оценки 2 на самом деле не было четких подкомпонентов, и нам не нужно учитывать оценки компонентов.
user1205901 - Восстановить Монику

1
Это «не ответ», но в идеальном мире я бы предложил изменить ситуацию и использовать примерный пример (возможно, искусственные задания, специально предназначенные для того, чтобы быть на грани оценок, а не для реальных студентов) в качестве способа обучения грейдеры должны иметь одинаковую щедрость, а не выводить и компенсировать их щедрость. Если оценки сделаны, это явно не решение для вас.
Серебряная рыба

1
(+1) Очень тщательно "не ответ". Последовательность в довольно субъективных тестах часто может быть значительно улучшена путем разбиения задачи оценки на компоненты - в противном случае один грейдер может придать больший вес ритму, другой - проекции и т. Д.
Scortchi - Восстановить Монику

Ясно, что в дополнение к представлению возможной корректировки человеку, который в конечном итоге решит проблему, мне также потребуется представить некоторые пояснения плюсов и минусов корректировки. Ваш ответ содержит много полезных материалов по этому вопросу. Однако мне интересно, какие критерии я могу использовать, чтобы принять решение о том, выгоднее ли оставить все в покое или внести изменения. Я смотрю на оценки когорт, и моя интуиция говорит, что различия между маркерами оказывают большое влияние. Интуиция ненадежна, но я не уверен, что еще я могу продолжить в этом случае.
user1205901 - Восстановить Монику

2
Один из вопросов заключается в том, есть ли у вас разумные основания полагать, что эффект «способности к разным задачам» является небольшим, особенно при усреднении по когорте, по сравнению с эффектом «щедрости в оценках». Если это так, вы можете попытаться оценить эффект щедрости для каждой когорты - но вы рискуете быть сбитым с толку. Более того, есть Уловка 22. Я бы наиболее осторожно применил большие «поправки» к наблюдаемым оценкам. Но если предлагаемые исправления невелики, вполне вероятно, что они связаны с систематическими различиями в способности различного задания между когортами, а не с щедростью в целом.
Серебряная рыба

2

Очень простая модель:

s1,iis2,iA1,,Ap

Каждая когорта предвзята силой своих учеников и легкостью грейдера. Предполагая, что это аддитивный эффект, мы отступим от него следующим образом: вычтем средний балл когорты в первом тесте и добавим средний балл когорты во втором тесте.

s1

jp,iAj,s1,i=s1,i1|Aj|iAj(s1,is2,i)

s

i,si=αs1,i+(1α)s2,i

Недостатком является то, что отдельный студент может быть оштрафован, если во втором тесте людям из его когорты не повезло. Но любой статистический метод может привести к этому потенциально несправедливому недостатку.


3
α

1
Нет - когорты выбраны не случайно.
Scortchi - Восстановить Монику

1
... который, как продолжает @whuber, смешивается с какой-либо присущей этой когорте тенденцией (в силу возраста или чего-либо другого) относительно лучше в одном типе теста, чем в другом.
Scortchi - Восстановить Монику

2
Вы не можете устранить путаницу, принимая большие когорты! В лучшем случае вы можете придумать еще более точные оценки непонятных значений.
whuber

3
Возможно, разумно, но это невозможно проверить, учитывая информацию, доступную ОП. Правильность вашего ответа зависит от истинности этого неявного предположения. Что еще хуже, его отрицание (что, конечно, также непроверяемо) также чрезвычайно разумно: поскольку когорты выбираются самостоятельно, они могут состоять из людей, которые действуют одинаково на разных инструментах оценки, предполагая, что на самом деле может быть вероятным, что дифференциальный успех будет частично из-за когорты и только частично из-за изменчивости среди грейдеров.
whuber

1

Ты не можешь По крайней мере, не без сбора дополнительных данных. Чтобы понять почему, прочитайте многочисленные комментарии @ whuber в этой теме.


0

редактировать

Проблема, решаемая в этом ответе, заключается в том, чтобы найти учеников, которые дают меньше очков ученикам, которые им не нравятся.

Оригинальный пост

Мой подход, который я считаю простым в реализации, будет следующим:

μk,ikiyk,i

1

Предположим, модель

yk,i=μk,i+α+τek,iααяα

2

граммяяY~К,я

YК,я-μК,я-αзнак равноY~К,язнак равнограммя+σяе~К,я

И сделать 11 индивидуальных оценок грамм и σ

3

Теперь необычное наблюдение такое, что количество

Tзнак равно|Y~-граммяσя|большой. Выберите наибольшее из этих количеств для каждой когорты и исследуйте их.

Заметка

Все еПредполагается, что гауссовский. Оценки обычно не распределяются, поэтому рекомендации по размеруT трудно дать.

R-код

Ниже приведен код в R. Обратите внимание, что в вашем случае будут заданы как mu, так и y, поэтому генерирующие строки, когда им назначены номера rnorm, следует игнорировать. Я включил их, чтобы иметь возможность оценить сценарий без данных.

mu_0 <- 50; 
alpha <- 5;
tau<- 10; 
# 0 Generate data for first assignment
mu <- matrix(rnorm(605, mu_0, tau), 11) 

# 1 Generate data for second assignment and estimate alpha
G <- rnorm(11, 0)*10;
for(i in 1:11){
    y[i,] <- rnorm(55, 0, sigma) + mu[i,] + alpha + G[i];
}

alpha_hat <- mean(y-mu)
alpha_hat

# 2 Form \tilde{y} and find unsual observations
ytilde <- y - mu - alpha_hat
T <- matrix(0, 11, 55);
for(i in 1:11){
    G_hat <- mean(ytilde[i,]);
    sigma_hat <- sd(ytilde[i,]);
    T[i,] <- order(abs(ytilde[i,] - G_hat)/sigma_hat)
}
# 3 Look at grader number 2 by
T[2,]

4
Вы, кажется, не ответили на вопрос: вы заканчиваете только рекомендацией исследовать любые «необычные наблюдения». Как это решает проблему?
whuber

Читая вопрос снова, возможно, я слишком сосредоточился на «индивидуальной» части. Проблема, решаемая в этом ответе, скорее состоит в том, чтобы найти учеников, которые дают меньше баллов ученикам, которые им не нравятся. Исходный вопрос невозможно (!) Решить. Как уже предлагалось, очень вероятно, что студенты сотрудничают или иным образом сильно коррелируют внутри каждой когорты.
Хунафу

0

Перефразируя проблему: как лучше всего подходить к установлению оценки из двух частей на экзамене с условиями, требующими, чтобы вторая часть подверглась большей неопределенности из-за диапазона качественных оценок делегированных маркеров.

Где: Мастер-тестер = ответственное лицо за экзамен. Делегированный тестер = лицо (1 из 11), назначенное для оценки пар № 2 экзамена. Студент = парень, который получает удовольствие от сдачи экзамена.

Цели включают в себя: A) Учащиеся получают оценку, отражающую их работу. B) Управляют неопределенностью второй части, чтобы соответствовать цели Мастера-тестировщика.

Предлагаемый подход (ответ): 1. Мастер-тестер случайным образом выбирает репрезентативный набор образцов экзаменов, отмечает часть № 2 и вырабатывает корреляцию с частью № 1. 2. Используйте корреляцию для оценки всех данных делегированных маркеров (Часть № 1). vs № 2) 3. Если корреляция значительно отличается от Мастер-тестера - значимость, которая будет приемлема для Мастера-тестера, - оцените экзамен как Мастер-тестер, чтобы переназначить результат.

Такой подход гарантирует, что Мастер Тестер несет ответственность за корреляцию и приемлемую значимость. Корреляция может быть такой же простой, как оценка для части № 1 против № 2 или относительная оценка для вопросов теста № 1 против № 2.

Мастер-тестер также сможет установить качество результата для части № 2 на основе "эластичности" корреляции.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.