В продольном исследовании я должен вменять результат Y, измеренный во время 2, для людей, которые были потеряны для наблюдения?


10

Я повторил измерения в 2 раза в выборке людей. В момент 1 - 18 тысяч человек, а в момент 2 - 13 тысяч человек (5000 потерянных для последующего наблюдения).

Я хочу регрессировать результат Y, измеренный в момент времени 2 (и результат не может быть измерен в момент времени 1) на множестве предикторов X, измеренных в момент 1. Все переменные имеют некоторые пропущенные данные. Большинство из них выглядит относительно случайным, или пропущенность кажется хорошо описанной наблюдаемыми данными. Тем не менее, подавляющее большинство пропусков в результате Y связано с потерями для последующего наблюдения. Я буду использовать множественное вменение (R :: mice) и буду использовать полный набор данных для вменения значений для X, но я получил 2 противоречивых совета относительно вменения Y:

1) Вменяем Y из X и V (V = полезные вспомогательные переменные) в полной выборке из 18k.

2) Не вменяйте Y в индивидов, потерянных для последующего наблюдения (и, следовательно, исключайте их из любого последующего регрессионного моделирования).

Первое имеет смысл, потому что информация есть информация, так почему бы не использовать все это; Но последнее также имеет смысл, в более интуитивном ключе - просто кажется неправильным вменять результат для 5000 человек на основе Y ~ X + V, а затем поворачиваться и оценивать Y ~ X.

Что (более) правильно?

Этот предыдущий вопрос полезен, но напрямую не рассматривает пропущение из-за потери последующих действий (хотя, возможно, ответ тот же; я не знаю).

Множественное вменение для переменных результата


Мне это кажется противоречивым - вы можете объяснить ?: «Большинство из них выглядит относительно случайным, или пропущенность кажется хорошо описанной наблюдаемыми данными».
rolando2

1
Множественное вменение и большинство других процедур вменения требуют, чтобы ваши данные отсутствовали случайным образом (MAR). Нужно было бы понять механизм истощения в вашем кабинете. Я подозреваю, что в ваших последующих исследованиях ваши пропущенные значения, скорее всего, не являются MAR или MCAR.
StatsStudent

Ответы:


2

Я думаю, что это случай с приборами. Вы хотите отсутствующий X, а не отсутствующий Y.

Y~X

Но X часто отсутствует или ошибается.

X~Z and Z does not impact Y- except through X.

Тогда вы можете запустить:

 X~Z
 Y~Predicted(X)

И требуют некоторой корректировки для стандартных ошибок.

Вы также можете посмотреть на двухшаговую процедуру Heckmann, если у вас много образцов истощения. http://en.wikipedia.org/wiki/Heckman_correction


2

Я бы сказал, что ни один из них не является наиболее подходящим.

Импутация, как правило, не подходит, когда данные не являются MAR или MCAR, и данные редко встречаются таким образом. При вменении ваших значений это может быть разумным предположением, но, конечно, не для ваших данныхXY

Удаление всех отсутствующих данных из ваших данных приводит к смещению ваших параметров (если данные не MCAR, см. Выше) и значительно снижает точность ваших оценок. Это полный анализ и нецелесообразно.

Я бы предложил пересмотреть методы анализа выживаемости. Это методы, разработанные для анализа ваших данных, учитывая, что некоторые из ваших результатов являются ненаблюдаемыми из-за цензуры. Существуют модели, которые будут учитывать это, если вы сможете определить, какие наблюдения подвергаются цензуре.Y

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.