ВОПРОС:
У меня есть двоичные данные по экзаменационным вопросам (правильно / неправильно). Некоторые люди могли иметь предварительный доступ к подмножеству вопросов и их правильных ответов. Я не знаю кто, сколько или какой. Если бы обмана не было, предположим, что я бы смоделировал вероятность правильного ответа для элемента как , где представляет сложность вопроса, а - скрытую способность индивидуума. Это очень простая модель ответа элемента, которую можно оценить с помощью таких функций, как ltm rasch () в R. В дополнение к оценкам (где индексирует отдельных лиц) скрытой переменной, у меня есть доступ к отдельным оценкамл о г я т ( ( р я = 1 | г ) ) = & beta ; я + г β я г г J J Q J той же скрытой переменной, которая была получена из другого набора данных, в котором обман был невозможен.
Цель состоит в том, чтобы идентифицировать людей, которые, вероятно, обманули и предметы, которые они обманули. Какие подходы вы можете использовать? В дополнение к необработанным данным доступны , и \ hat {q} _j , хотя первые два будут иметь некоторую погрешность из-за мошенничества. В идеале решение должно быть в форме вероятностной кластеризации / классификации, хотя в этом нет необходимости. Практические идеи приветствуются, как и формальные подходы. г J д J
До сих пор я сравнивал соотношение вопросов и ответов для пар лиц с более высокими или низкими показателями (где - это грубый показатель вероятности того, что их обманули). Например, я отсортировал людей по а затем построил график корреляции последовательных пар вопросов участников. Я также попытался построить среднюю корреляцию оценок для людей, чьи значения были больше, чем квантиль для в зависимости от . Нет очевидных моделей для любого подхода.
ОБНОВИТЬ:
Я закончил тем, что соединил идеи из @SheldonCooper и полезной статьи Freakonomics, на которую @whuber указал мне. Другие идеи / комментарии / критика приветствуются.
Пусть будет двоичным счетом лица по вопросу . Оцените logit модели ответа на предмет (Pr (X_ {ij} = 1 | z_j) = \ beta_i + z_j,
Вероятность наблюдаемой оценки , обусловленной легкостью предмета и способностями человека, можно записать в виде где - прогнозируемая вероятность правильный ответ, и - обратный логит. Тогда, в зависимости от характеристик предмета и человека, общая вероятность того, что человек имеет наблюдения равна и, аналогично, общая вероятность того, что элемент имеет наблюдения p i j = P r ( X i j = x i j | ^ β i , ^ q j ) = P i j ( ^ β i , ^ q j ) x i j ( 1 - P i j ( ^ β i , ^ q j ) ) 1 - xPij( ^ β i , ^
Дополнительный шаг, который я попробовал, состоит в том, чтобы взять r% наименее вероятных людей (то есть людей с наименьшим r% от отсортированных значений p_j), вычислить среднее расстояние между их наблюдаемыми показателями x_j (которое должно быть коррелировано для лиц с низким r, которые возможные мошенники), и нанесите его на график для r = 0,001, 0,002, ..., 1000. Среднее расстояние увеличивается при r = 0,001 до r = 0,025, достигает максимума, а затем медленно уменьшается до минимума при r = 1. Не совсем то, на что я надеялся.