Я повторил измерения в 2 раза в выборке людей. В момент 1 - 18 тысяч человек, а в момент 2 - 13 тысяч человек (5000 потерянных для последующего наблюдения).
Я хочу регрессировать результат Y, измеренный в момент времени 2 (и результат не может быть измерен в момент времени 1) на множестве предикторов X, измеренных в момент 1. Все переменные имеют некоторые пропущенные данные. Большинство из них выглядит относительно случайным, или пропущенность кажется хорошо описанной наблюдаемыми данными. Тем не менее, подавляющее большинство пропусков в результате Y связано с потерями для последующего наблюдения. Я буду использовать множественное вменение (R :: mice) и буду использовать полный набор данных для вменения значений для X, но я получил 2 противоречивых совета относительно вменения Y:
1) Вменяем Y из X и V (V = полезные вспомогательные переменные) в полной выборке из 18k.
2) Не вменяйте Y в индивидов, потерянных для последующего наблюдения (и, следовательно, исключайте их из любого последующего регрессионного моделирования).
Первое имеет смысл, потому что информация есть информация, так почему бы не использовать все это; Но последнее также имеет смысл, в более интуитивном ключе - просто кажется неправильным вменять результат для 5000 человек на основе Y ~ X + V, а затем поворачиваться и оценивать Y ~ X.
Что (более) правильно?
Этот предыдущий вопрос полезен, но напрямую не рассматривает пропущение из-за потери последующих действий (хотя, возможно, ответ тот же; я не знаю).