Важно правильно сформулировать вопрос и принять полезную концептуальную модель оценки.
Вопрос
Потенциальные пороги мошенничества, такие как 55, 65 и 85, известны априори независимо от данных: их не нужно определять из данных. (Следовательно, это не является проблемой обнаружения выбросов или проблемой подгонки распределения.) Тест должен оценить свидетельство того, что некоторые (не все) оценки, чуть меньшие, чем эти пороговые значения, были перемещены к этим пороговым значениям (или, возможно, только выше этих пороговых значений).
Концептуальная модель
Для концептуальной модели важно понимать, что оценки вряд ли будут иметь нормальное распределение (или любое другое легко параметризованное распределение). Это совершенно ясно в опубликованном примере и во всех других примерах из исходного отчета. Эти баллы представляют собой смесь школ; даже если распределение в какой-либо школе было нормальным (они не являются), смесь вряд ли будет нормальной.
Простой подход предполагает наличие истинного распределения баллов: того, о котором сообщалось бы, за исключением этой конкретной формы мошенничества. Следовательно, это непараметрическая настройка. Это кажется слишком широким, но есть некоторые характеристики распределения оценок, которые можно предвидеть или наблюдать в реальных данных:
Подсчеты баллов , и будут тесно связаны, .i−1ii+11≤i≤99
Будут различия в этих показателях вокруг некоторой идеализированной гладкой версии распределения результатов. Эти изменения обычно имеют размер, равный квадратному корню из числа.
Обман по отношению к порогу не повлияет на счет для любой оценки . Его эффект пропорционален подсчету каждого балла (количество учеников, которым «грозит опасность» из-за мошенничества). Для баллов ниже этого порога количество будет уменьшено на некоторую долю и эта сумма будет добавлена к .ti≥tic(i)δ(t−i)c(i)t(i)
Количество изменений уменьшается с расстоянием между оценкой и порогом: является убывающей функцией .δ(i)i=1,2,…
При заданном пороговом значении нулевая гипотеза (без обмана) состоит в том, что , подразумевая, что тождественно равна . Альтернативой является то, что .tδ(1)=0δ0δ(1)>0
Построение теста
Какую статистику теста использовать? В соответствии с этими допущениями, (а) эффект является аддитивным в подсчетах и (б) наибольший эффект будет иметь место непосредственно за порогом. Это указывает на рассмотрение первых различий в подсчете, . Дальнейшее рассмотрение предлагает сделать еще один шаг вперед: согласно альтернативной гипотезе, мы ожидаем увидеть последовательность постепенно пониженных подсчетов, когда показатель приближается к порогуc′(i)=c(i+1)−c(i)ittt+1
c′′(i)=c′(i+1)−c′(i)=c(i+2)−2c(i+1)+c(i),
потому что при это будет сочетать значительное отрицательное снижение с отрицательным значительным положительным увеличением , тем самым усиливая обманный эффект ,i=t−1c(t+1)−c(t)c(t)−c(t−1)
Я собираюсь предположить - и это можно проверить - что последовательная корреляция отсчетов вблизи порога довольно мала. (Последовательная корреляция в другом месте не имеет значения.) Это означает, что дисперсия приблизительноc′′(t−1)=c(t+1)−2c(t)+c(t−1)
var(c′′(t−1))≈var(c(t+1))+(−2)2var(c(t))+var(c(t−1)).
Ранее я предлагал для всех (то, что также можно проверить). Откудаvar(c(i))≈c(i)i
z=c′′(t−1)/c(t+1)+4c(t)+c(t−1)−−−−−−−−−−−−−−−−−−−−√
должен приблизительно иметь единичную дисперсию. Для групп с большим количеством баллов (количество публикаций составляет около 20 000), мы также можем ожидать примерно нормальное распределение . Поскольку мы ожидаем, что крайне отрицательное значение указывает на читерскую модель, мы легко получаем тест размера : writing для cdf стандартного нормального распределения, отвергаем гипотезу об отсутствии читерства на пороге когда .c′′(t−1)αΦtΦ(z)<α
пример
Например, рассмотрим этот набор истинных результатов тестов, составленный из смеси трех нормальных распределений:
К этому я применил расписание мошенничества с порогом определяемым как . Это фокусирует почти все мошенничество на один или два балла сразу ниже 65:t=65δ(i)=exp(−2i)
Чтобы получить представление о том, что делает тест, я вычислил для каждого результата, а не только для , и вычертил его в соответствии с результатом:zt
(На самом деле, чтобы избежать проблем с маленькими счетами, я сначала добавил 1 к каждому счету от 0 до 100, чтобы вычислить знаменатель .)z
Колебания около 65 очевидны, так же как и тенденция для всех других флуктуаций размером около 1, в соответствии с допущениями этого теста. Статистика теста с соответствующим значением p , что является чрезвычайно значимым результатом. Визуальное сравнение с рисунком в самом вопросе позволяет предположить, что этот тест вернет значение p по меньшей мере столь же маленькимz=−4.19Φ(z)=0.0000136
(Тем не менее, обратите внимание, что сам тест не использует этот график, который показан для иллюстрации идей. Тест рассматривает только построенное значение на пороге, нигде больше. Тем не менее, было бы хорошей практикой составлять такой график чтобы подтвердить, что тестовая статистика действительно выделяет ожидаемые пороговые значения в качестве локусов мошенничества и что все остальные баллы не подвержены таким изменениям. Здесь мы видим, что во всех других баллах есть колебания между -2 и 2, но редко Обратите также внимание, что на самом деле не нужно вычислять стандартное отклонение значений на этом графике, чтобы вычислить , что позволяет избежать проблем, связанных с мошенническими эффектами, вызывающими колебания в нескольких местах.)z
При применении этого теста к нескольким порогам было бы целесообразно корректировать размер теста по Бонферрони. Хорошей идеей будет также дополнительная настройка при одновременном применении к нескольким тестам.
оценка
Эта процедура не может быть серьезно предложена для использования, пока она не проверена на реальных данных. Хорошим способом было бы взять оценки для одного теста и использовать некритическую оценку для теста в качестве порога. Предположительно такой порог не был подвержен этой форме обмана. Смоделируйте мошенничество в соответствии с этой концептуальной моделью и изучите моделируемое распределение . Это укажет (а), являются ли p-значения точными и (б) мощность теста, чтобы указать имитированную форму обмана. В самом деле, можно использовать такое имитационное исследование на тех данных, которые он оценивает, обеспечивая чрезвычайно эффективный способ проверки того, подходит ли тест и какова его фактическая мощность. Потому что тестовая статистикаzz Это так просто, что моделирование будет практически осуществимо и быстро выполнено.