Как начать применять теорию отклика предмета и какое программное обеспечение использовать?


21

контекст

Я читал о теории ответа предметов, и я нахожу ее увлекательной. Я верю, что понимаю основы, но мне интересно, как применять статистические методы, связанные с этой областью. Ниже приведены две статьи, похожие на те области, в которых я хотел бы применить ITR:

Второе - это то, что я бы хотел расширить на данный момент.

Я скачал бесплатную программу под названием jMetrik, и она, кажется, работает отлично. Я думаю, что это может быть слишком основным, насколько IRT идет, но я не уверен.

Я знаю, что «лучший» способ, вероятно, будет включать изучение R; Тем не менее, я не знаю, смогу ли я сэкономить время, чтобы справиться с этой кривой обучения. Обратите внимание, что у нас есть определенное финансирование для покупки программного обеспечения, но, как я вижу, там, похоже, нет хороших программ IRT.

Вопросов

  • Что вы думаете об эффективности jMetrik?
  • Как бы вы посоветовали мне перейти на IRT?
  • Каковы лучшие программы для применения IRT?
  • Кто-нибудь из вас регулярно использует IRT? Если да, то как?

1
какое программное обеспечение вы используете в настоящее время?
StasK

Я использую jMetrik. Это довольно новое, похоже, и я делаю много вещей, которые меня интересуют!
Behacad

2
Работает ли он в режиме сценария? Если у вас есть только графический интерфейс, то ваши результаты будет очень трудно воспроизвести. Режим сценария является обязательным для любого серьезного программного обеспечения.
StasK

Ответы:


22

Как хороший стартер для IRT, я всегда рекомендую прочесть наглядное руководство по теории отклика предметов .

Обзор доступного программного обеспечения можно найти на www.rasch.org .

Исходя из своего опыта, я обнаружил, что команды Stata Raschtest (и связанные с ними) очень удобны в большинстве случаев, когда кто-то заинтересован в подборе однопараметрической модели. Для более сложного дизайна можно прибегнуть к GLLAMM ; есть хороший рабочий пример, основанный на книге Де Бека и Уилсона « Объяснительные предметы и модели ответов» (Springer, 2004).

Что касается R, в частности, существует множество пакетов, которые стали доступны в течение последних пяти лет, см., Например, соответствующее представление задач CRAN . Большинство из них обсуждаются в специальном выпуске в журнале статистического программного обеспечения (т. 20, 2007). Как обсуждалось в другом ответе, ltm и eRm позволяют соответствовать широкому диапазону моделей IRT. Поскольку они полагаются на другой метод оценки - ltmиспользовали маржинальный подход, в то время как eRmиспользуют условный подход - выбор одного или другого в основном зависит от модели, которую вы хотите подогнать (eRm не подходит для двух- или трехпараметрических моделей) и цели измерения, которой вы руководствуетесь: условная оценка параметров личности обладает некоторыми хорошими психометрическими свойствами, в то время как маргинальный подход позволяет легко переключиться на модель со смешанными эффектами, как обсуждалось в следующих двух статьях. :

Существуют также некоторые возможности для подгонки моделей Rasch с использованием методов MCMC, см., Например, пакет MCMCpack (или WinBUGS / JAGS , но см. Код BUGS для теории ответа на вопрос , JSS (2010) 36).

У меня нет опыта работы с SAS для моделирования IRT, поэтому я предоставлю это тому, кто более разбирается в программировании SAS.

Другое специализированное программное обеспечение (в основном используемое в образовательной оценке) включает в себя: RUMM, Conquest, Winsteps, BILOG / MULTILOG, Mplus (не цитируя список, уже доступный в википедии ). Ни один из них не является бесплатным, но для некоторых из них предлагается ограниченная по времени демонстрационная версия. Я нашел jMetrik очень ограниченным, когда попробовал его (год назад), и все функции уже доступны в R. Аналогично, ConstructMap может быть безопасно заменен на lme4 , как показано в раздаточном материале, связанном выше. Я должен также упомянуть mdltm(Модели многомерных дискретных скрытых признаков) для смешанных моделей Раша, автором фон Давье и соавторами, которые, как предполагается, сопровождают книгуМодели Rasch с многомерным распределением и распределением смеси (Springer, 2007).


Фантастика! Спасибо за очень полный ответ! Оба эти ответа помогут мне, а также всем, кому интересно заниматься этой областью, я уверен. Я предлагаю вам еще раз взглянуть на jMetrik и, возможно, высказать свои мысли. Теперь в нем есть моделирование Раша, кривые ICC, некоторые кривые IRT, уравнение IRT (модели 1PT, 2PT, 3PT) и многое другое.
Behacad

Я посмотрю на обновленную версию. Но, честно говоря, сказанное @Stask стоит помнить, если вы планируете делать что-то серьезное, помимо оценки параметров и визуальной отчетности. Для того, чтобы получить представление о том , что я имею в виду, посмотрите на Введение в психометрических теории с приложениями в R . (Оно охватывает не только то, что некоторые называют «современной» психометрией.)
гл.

@chi - Я получил совсем другие результаты, когда я запускал анализ IRT в R с использованием ltm по сравнению с тем, когда я выполнял тот же анализ в Mplus, а затем в Multilog (тогда как анализ в Mplus и Multilog был идентичен). Я пытался выяснить, почему с автором ltm, но не получил никаких ответов. Был ли у вас подобный опыт с противоречивыми результатами от разных пакетов программного обеспечения?
Тормод

@Tormod Совсем другое, в каком смысле? Запуск ex5.5примера в Mplus и R / LTM, я получил ок. те же результаты. Однако следует ожидать некоторых изменений в зависимости от используемого программного обеспечения. Обычно то, что я обнаружил, связано с выбором параметризации (logit / probit), будь то ( элементов, лиц) или который моделируется, и метод оценки (предельное и условное правдоподобие), а также для моделей с 2+ параметрами независимо от того, центрированы ли пороги или нет. i = 1 , , k p = 1 , , n β i - θ pθп-βяязнак равно1,...,Кпзнак равно1,...,Nβя-θп
ХЛ

@chi - извините за задержку с ответом, я не заметил ваш комментарий. Не знаю, если это все еще актуально, но я получил различия, варьирующиеся от 0,184 до 1,429 для параметров дискриминации (а). Например, Mplus дал a = 5,084, тогда как ltm дал тот же элемент a = 3,655. В целом, ltm дал меньше а чем mplus. (Выполнение одного и того же анализа в multilog дало a, соответствующее a's из Mplus). Би были более похожи.
Tormod

8

На первый вопрос, у меня нет никакой информации о jMetrick.

При применении IRT (как и в случае любой другой статистической процедуры) первым шагом является использование его с максимально возможным количеством различных типов данных. Есть кривая обучения, но я считаю, что это того стоит.

Важной особенностью IRT является различие между моделями Rasch и IRT. Они были разработаны разными людьми для разных целей. При этом, модели IRT являются расширенным набором моделей Rasch.

Модели Rasch - это модели с одним параметром - они предполагают, что все элементы вопросника одинаково предсказывают скрытую черту.

Модели IRT, однако, представляют собой две модели параметров, которые позволяют различным вопросам отличаться способностью предоставлять информацию о способностях участников.

Кроме того, есть три модели параметров, которые похожи на модели IRT, за исключением того, что они позволяют использовать параметр угадывания, чтобы учесть способность участников случайно получить правильный ответ (это больше касается способности, чем личностных тестов).

Кроме того, существует многомерный IRT, который оценивает множественные скрытые способности одновременно. Я не знаю много об этом, но это область, которую я намерен узнать больше.

Существует также различие между дихотомическими и политомными методами IRT. Дихотомические модели IRT - это модели, используемые в тестах способностей, которые дают правильный и неправильный ответ. Модели Polytomous IRT используются в личностных тестах, где есть несколько ответов, которые одинаково правильны (в том смысле, что нет правильного ответа).

Я лично использую R для теории ответа предмета. Я использовал два основных пакета, eRmкоторые соответствуют только моделям Rasch, и ltmкоторые соответствуют моделям теории отклика элемента (модели с двумя и тремя параметрами). Оба имеют похожую функциональность, и оба предоставляют больше процедур для дихотомических моделей IRT. Я не знаю, является ли R «лучшим» для IRT, он не имеет всего множества доступных моделей IRT, но он, безусловно, является наиболее расширяемым, поскольку можно относительно легко программировать эти модели.

Я использую IRT почти исключительно для политомных моделей, в R. Обычно я начинаю с непараметрических методов IRT (предусмотренных в пакете mokken), чтобы проверить предположения, а затем приступаю к модели rasch, добавляя больше сложности, как требуется, чтобы получить хорошее соответствие.

Для многомерного IRT существует пакет `mirt ', который предоставляет эту функциональность. Я не использовал его, поэтому я не могу комментировать.

Если вы установите эти пакеты в R и вызовете функцию 'vignette ("packagename"), то вы должны получить несколько полезных виньеток (определенно для eRmи mokken, возможно, для других), которые могут оказаться полезными для вас (в зависимости от вашего уровня математическая сложность).

Наконец, есть много хороших книг, доступных для моделей Rasch и irt. Теория ответа предмета для психологов часто используется (хотя мне не нравился стиль), и далее в цепочке технической сложности есть два чрезвычайно полных и полезных учебника - Справочник по современной теории отклика предмета и модели Раша: Основы, Недавние Разработки и приложения .

Надеюсь, это поможет.


Спасибо! Это очень ценится. Я также хотел бы услышать больше о вариантах программного обеспечения, если у кого-то есть знания в этой области.
Behacad

3

jMetrik более мощный, чем вы думаете. Он предназначен для оперативной работы, когда исследователям необходимо несколько процедур в единой унифицированной среде. В настоящее время вы можете оценить параметры IRT для моделей Rasch, частичного кредитования и рейтинговой шкалы. Это также позволяет связывать шкалу IRT с помощью Stocking-Lord, Haebara и других методов. Поскольку он включает в себя интегрированную базу данных, результаты оценки IRT могут использоваться при масштабировании связей без необходимости изменения формы файлов данных. Кроме того, весь вывод может быть сохранен в базе данных для использования с другими методами в jMetrik или внешних программах, таких как R.

Вы также можете запустить его с помощью сценариев вместо графического интерфейса. Например, следующий код будет (а) импортировать данные в базу данных, (б) оценивать элементы с помощью ключа ответа, (в) оценивать параметры модели Раша и (г) экспортировать данные в виде файла CSV. Вы можете использовать конечный выходной файл в качестве входных данных для R для дальнейшего анализа, или вы можете использовать R для непосредственного подключения к базе данных jMetrik и работы с результатами.

#import data into database
import{
     delimiter(comma);
     header(included);
     options(display);
     description();
     file(C:/exam1-raw-data.txt);
     data(db = testdb1, table = EXAM1);
}

#conduct item scoring with the answer key
scoring{
     data(db = mydb, table = exam1);
     keys(4);
     key1(options=(A,B,C,D), scores=(1,0,0,0), variables=  (item1,item9,item12,item15,item19,item21,item22,item28,item29,item30,item34,item38,item42,item52,item55));
     key2(options=(A,B,C,D), scores=(0,1,0,0), variables=(item4,item6,item16,item18,item24,item26,item32,item33,item35,item43,item44,item47,item50,item54));
     key3(options=(A,B,C,D), scores=(0,0,1,0), variables=(item3,item5,item7,item11,item14,item20,item23,item25,item31,item40,item45,item48,item49,item53));
     key4(options=(A,B,C,D), scores=(0,0,0,1), variables=(item2,item8,item10,item13,item17,item27,item36,item37,item39,item41,item46,item51,item56));
}

#Run a Rasch models analysis.
#Item parameters saved as database table named exam1_rasch_output
#Residuals saved as a databse table named exam1_rasch_resid
#Person estimates saved to original data table. Person estimate in variable called "theta"
rasch{
     center(items);
     missing(ignore);
     person(rsave, pfit, psave);
     item(isave);
     adjust(0.3);
     itemout(EXAM1_RASCH_OUTPUT);
     residout(EXAM1_RASCH_RESID);
     variables(item1, item2, item3, item4, item5, item6, item7, item8, item9, item10, item11, item12, item13, item14, item15, item16, item17, item18, item19, item20, item21, item22, item23, item24, item25, item26, item27, item28, item29, item30, item31, item32, item33, item34, item35, item36, item37, item38, item39, item40, item41, item42, item43, item44, item45, item46, item47, item48, item49, item50, item51, item52, item53, item54, item55, item56);
     transform(scale = 1.0, precision = 4, intercept = 0.0);
     gupdate(maxiter = 150, converge = 0.005);
     data(db = testdb1, table = EXAM1);
}

#Export output table for use in another program like R
export{
     delimiter(comma);
     header(included);
     options();
     file(C:/EXAM1_RASCH_OUTPUT.txt);
     data(db = testdb1, table = EXAM1_RASCH_OUTPUT);
}

Программное обеспечение все еще находится на ранней стадии разработки. В настоящее время я добавляю исследовательский факторный анализ и более продвинутые модели реагирования на предметы. В отличие от многих других программ IRT, jMetrik является открытым исходным кодом. все процедуры измерения используют библиотеку психометрии, которая в настоящее время доступна на GitHub, https://github.com/meyerjp3/psychometrics . Любой, кто заинтересован в содействии, приветствуется.


0

У вас есть довольно широкий список вопросов, но он весьма актуален для многих исследователей!

Я настоятельно рекомендую вам идти вперед в IRT, но только если ваша ситуация соответствует требованиям. Например, он хорошо согласуется с типами тестов, которые вы используете, и, вероятно, самое главное, что у вас есть необходимые размеры выборки. Для дихотомических данных с множественным выбором я рекомендую модель 3PL (аргумент Rasch «объективного измерения» поразительно неубедителен), а 500-1000 - это, как правило, минимальный размер выборки. Дихотомические данные без догадок, такие как психологические опросы, в которых ответы Y / N на утверждения хорошо работают с 2PL. Если у вас есть рейтинговая шкала или частичные кредитные данные, существуют политомные модели, разработанные специально для этих ситуаций.

ИМХО, лучшая программа для применения IRT - это Xcalibre. Он относительно удобен для пользователя (простой графический интерфейс, а также пакетный тип командной строки, если вам это нужно по какой-то причине) и обеспечивает очень удобочитаемый вывод (отчеты MS Word с обширными таблицами и рисунками). Я рекомендую не использовать R по противоположным причинам. Недостаток, конечно, в том, что он не бесплатный, но вы, как говорится, получаете то, за что платите. Полное описание, пример вывода и бесплатная пробная версия доступны на сайте www.assess.com .


Хотели бы вы уточнить, почему аргумент «объективного измерения» Сенсу Раша (или, точнее, возможность конкретных объективных сравнений) «поразительно неубедителен»?
Момо

0

В то же время вышла новая книга Фрэнка Бейкера, Бейкера Фрэнка Б., Сок-Хо Кима. Основы теории отклика предметов с использованием международной публикации R. Springer (2017) . Он не использует пакеты R, но предлагает фрагменты.

(Переполненный) список пакетов R для IRT с кратким описанием доступен на CRAN .

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.