В чем преимущество вменения перед построением нескольких моделей в регрессии?

Интересно, может ли кто-нибудь дать некоторое представление о том, является ли лучше объяснение почему отсутствующие данные, чем простое построение различных моделей для случаев с отсутствующими данными. Особенно в случае [обобщенных] линейных моделей (возможно, я вижу, что в нелинейных случаях все иначе)

Предположим, у нас есть базовая линейная модель:

$Y = \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3 + \epsilon$

Но наш набор данных содержит некоторые записи с отсутствующим . В наборе данных прогноза, где будет использоваться модель, также будут случаи пропуска . Кажется, есть два пути: $X_3$ $X_3$

Несколько моделей

Мы могли бы разделить данные на и не и построить отдельную модель для каждого из них. Если мы предположим, что тесно связан с то отсутствующая модель данных может перевесить чтобы получить лучший прогноз с двумя предикторами. Кроме того, если пропущенные данные немного отличаются (из-за отсутствующего механизма данных), то это может включать эту разницу. С другой стороны, обе модели соответствуют только части данных и не «помогают» друг другу, поэтому при ограниченных наборах данных соответствие может быть плохим. $X_3$ $X_3$ $X_3$ $X_2$ $X_2$

вменение в вину

Многократное вменение регрессии сначала заполнило бы , построив модель, основанную на и и затем бы случайную выборку для поддержания шума в вмененных данных. Поскольку это опять две модели, не будет ли это в конечном итоге таким же, как метод нескольких моделей, описанный выше? Если он способен выиграть - откуда берется выигрыш? Это просто, что подгонка для сделана на всем наборе? $X_3$ $X_1$ $X_2$ $X_1$

РЕДАКТИРОВАТЬ:

Хотя ответ Стеффана до сих пор объясняет, что подгонка полной модели кейса к вмененным данным превзойдет подгонку к полным данным, и кажется очевидным, что обратное верно, все еще существует некоторое недопонимание в отношении прогнозирования недостающих данных.

Если у меня есть вышеупомянутая модель, даже идеально подходящая, это будет вообще ужасная модель прогнозирования, если я просто введу ноль при прогнозировании. Представьте, например, что тогда совершенно бесполезен ( ), когда присутствует , но все равно будет полезен в отсутствие . $X_2 = X_3+\eta$ $X_2$ $\beta_2 = 0$ $X_3$ $X_3$

Ключевой вопрос, который я не понимаю: лучше ли построить две модели, одну с использованием и одну с использованием , или лучше построить одну (полную) модель и использовать вложение в прогнозные наборы данных - или это одно и то же? $(X_1, X_2)$ $(X_1, X_2, X_3)$

Ввиду ответа Штеффана, может показаться, что лучше построить полную модель случая на вменяемом обучающем наборе, и, наоборот, вероятно, лучше построить недостающую модель данных на полном наборе данных с отброшенным . Отличается ли этот второй шаг от использования модели вменения в данных прогнозирования? $X_3$

regression missing-data data-imputation

— Korone
источник

Ответы:

Я думаю, что ключом здесь является понимание отсутствующего механизма данных; или, по крайней мере, исключить некоторые. Построение отдельных моделей сродни трактовке отсутствующих и отсутствующих групп как случайных выборок. Если отсутствие на X3 связано с X1 или X2 или какой-либо другой ненаблюдаемой переменной, то ваши оценки, вероятно, будут смещены в каждой модели. Почему бы не использовать множественное вменение в наборе данных разработки и использовать объединенные коэффициенты в множественном вмененном наборе предсказания? Среднее по прогнозам, и вы должны быть хорошими.

— ReliableResearch
источник

Но если отсутствие относится к X1 или X2, то, конечно, хорошо иметь две отдельные модели - так как они будут включать эту информацию. То есть, когда в будущем я получу недостающий X3, я буду знать, что уклон в правильном направлении.

— Короне

Я предполагаю, что вы заинтересованы в получении объективных оценок коэффициентов регрессии. Анализ полных случаев дает несмещенные оценки ваших коэффициентов регрессии при условии, что вероятность пропуска X3 не зависит от Y. Это верно, даже если вероятность пропуска зависит от X1 или X2 и для любого типа регрессионного анализа.

Конечно, оценки могут быть неэффективными, если доля завершенных дел мала. В этом случае вы можете использовать множественное вложение X3, заданных X2, X1 и Y, чтобы повысить точность. См. White and Carlin (2010) Stat Med для деталей.

— Стеф ван Буурен
источник

Ах, так вменение в том, чтобы получить правильные коэффициенты? Сами коэффициенты не представляют интереса для меня - я просто хочу , чтобы максимизировать свою прогностическую силу на новых данных (которые также могут иметь missingness)

— Korone

Хорошо. Для достижения максимальной предсказательной силы вам также понадобятся точные и объективные оценки коэффициентов модели.

— Стеф ван Буурен

Если я использую только полные случаи, то я не могу использовать эту модель для прогнозирования, когда у меня отсутствуют данные, потому что коэффициенты, как правило, будут неправильными (например, если есть корреляция между X2 и X3). Поэтому я должен либо приписать X3 при прогнозировании, либо построить вторую модель только для X1 и X2. Вопрос в том, приводит ли это к различным предсказаниям и что лучше?

— Короне

Ах, я думаю, я понимаю одну мысль, которую вы делаете: если я подгоню модель для прогнозирования полного случая с использованием вменения, то это улучшит полный прогноз случая, а не только для сравнения с конкурентными случаями. Остается вопрос, что лучше для неполных дел?

— Короне

Предположим, что beta_1 = beta_2 = 0 и beta_3 = 1. Использование только X1 и X2 будет предсказывать константу, в то время как прогнозирование с использованием X3 объяснит некоторую дисперсию Y и, следовательно, приведет к снижению остаточной ошибки. Таким образом, вмененная версия дает лучшие прогнозы.

— Стеф ван Бюрен

Одно исследование из Гарварда предлагает множественное вменение с пятью прогнозами недостающих данных (вот ссылка, http://m.circoutcomes.ahajournals.org/content/3/1/98.full ). Даже тогда я вспоминаю комментарии о том, что модели вменения могут все еще не создавать интервалы покрытия для параметров модели, которые не включают истинные базовые значения!

Имея это в виду, представляется, что лучше всего использовать пять простых наивных моделей для отсутствующего значения (при условии, что они не пропущены случайно в текущем обсуждении), которые дают хороший разброс значений, так что интервалы покрытия могут, по крайней мере, содержать истинные параметры ,

Мой опыт в теории выборки заключается в том, что много ресурсов часто расходуется на субвыбор населения без ответа, который, порой, кажется, сильно отличается от населения ответа. Таким образом, я бы рекомендовал подобное упражнение для регрессии отсутствующих значений хотя бы один раз в конкретной области применения. Отношения, не обнаруженные при таком исследовании отсутствующих данных, могут иметь историческую ценность при построении лучших моделей прогнозирования недостающих данных на будущее.

— AJKOER
источник