Интересно, может ли кто-нибудь дать некоторое представление о том, является ли лучше объяснение почему отсутствующие данные, чем простое построение различных моделей для случаев с отсутствующими данными. Особенно в случае [обобщенных] линейных моделей (возможно, я вижу, что в нелинейных случаях все иначе)
Предположим, у нас есть базовая линейная модель:
Но наш набор данных содержит некоторые записи с отсутствующим . В наборе данных прогноза, где будет использоваться модель, также будут случаи пропуска . Кажется, есть два пути:X 3
Несколько моделей
Мы могли бы разделить данные на и не и построить отдельную модель для каждого из них. Если мы предположим, что тесно связан с то отсутствующая модель данных может перевесить чтобы получить лучший прогноз с двумя предикторами. Кроме того, если пропущенные данные немного отличаются (из-за отсутствующего механизма данных), то это может включать эту разницу. С другой стороны, обе модели соответствуют только части данных и не «помогают» друг другу, поэтому при ограниченных наборах данных соответствие может быть плохим.Х 3 Х 3 Х 2 Х 2
вменение в вину
Многократное вменение регрессии сначала заполнило бы , построив модель, основанную на и и затем бы случайную выборку для поддержания шума в вмененных данных. Поскольку это опять две модели, не будет ли это в конечном итоге таким же, как метод нескольких моделей, описанный выше? Если он способен выиграть - откуда берется выигрыш? Это просто, что подгонка для сделана на всем наборе?X 1 X 2 X 1
РЕДАКТИРОВАТЬ:
Хотя ответ Стеффана до сих пор объясняет, что подгонка полной модели кейса к вмененным данным превзойдет подгонку к полным данным, и кажется очевидным, что обратное верно, все еще существует некоторое недопонимание в отношении прогнозирования недостающих данных.
Если у меня есть вышеупомянутая модель, даже идеально подходящая, это будет вообще ужасная модель прогнозирования, если я просто введу ноль при прогнозировании. Представьте, например, что тогда совершенно бесполезен ( ), когда присутствует , но все равно будет полезен в отсутствие .Х 2 β 2 = 0 Х 3 Х 3
Ключевой вопрос, который я не понимаю: лучше ли построить две модели, одну с использованием и одну с использованием , или лучше построить одну (полную) модель и использовать вложение в прогнозные наборы данных - или это одно и то же?
Ввиду ответа Штеффана, может показаться, что лучше построить полную модель случая на вменяемом обучающем наборе, и, наоборот, вероятно, лучше построить недостающую модель данных на полном наборе данных с отброшенным . Отличается ли этот второй шаг от использования модели вменения в данных прогнозирования?