У меня есть большой опрос, в котором ученикам задали, среди прочего, уровень образования их матери. Некоторые пропустили это, а некоторые ответили неправильно. Я знаю это, потому что там была проведена беседа с подвыборкой из первых респондентов матери, которые задали тот же вопрос. (Я уверен, что есть и небольшая доля ошибок, связанных с ответами матерей.)
Моя задача - решить, как наилучшим образом использовать этот второй, более надежный источник данных. По крайней мере, я могу использовать его, чтобы вменять недостающие данные более разумно, чем если бы я мог полагаться только на законченные дела. Но если 3/4 детей, чьи данные я могу перепроверить, которые отвечают «Моя мать никогда не заканчивала начальную школу», противоречат ответу их матери, то, похоже, мне следует использовать вменение для создания нескольких наборов данных, чтобы уловить там неопределенность. [добавлено: я сказал 3/4, чтобы сделать точку, но теперь, когда я проверил данные, я мог бы также сказать вам, что ближе к 40% не соответствует)
Я лично буду использовать образование матери в качестве предиктора в смешанной модели, но если кому-то есть что сказать о других ситуациях, я бы тоже хотел узнать о них.
Я хотел бы получить совет в общих чертах или в деталях. Спасибо!
Обновление : я пока оставляю вопрос нерешенным, хотя я ценю ответы Уилла и Conjugate_Prior, я надеюсь на более конкретную и техническую обратную связь.
Диаграмма рассеяния ниже даст вам представление о том, как две переменные связаны в 10 000 случаев, когда существуют обе. Они гнездятся более чем в 100 школах. Они коррелируют на уровне 0,78, средний ответ ученика: 5,12 SD = 2,05, ответ мамы, среднее = 5,02, SD = 1,92. Ответ ученика отсутствует примерно в 15% случаев.