Предположим, нам дан набор данных в форме и . Нам дана задача прогнозирования на основе значений . Мы оцениваем две регрессии, где: ( y , x 1 , x 2 , ⋯ , x n - 1 ) y x y
Мы также оцениваем регрессию, которая предсказывает значения на основе значений , то есть: ( x 1 , ⋯ , x n - 1 ) x n = f 3 ( x 1 , ⋯ , x n - 1 )
Предположим теперь, что нам даны значения , тогда у нас будет два разных метода для предсказания :y
Какой из них будет лучше в целом?
Я предполагаю, что первое уравнение было бы лучше, потому что оно использует информацию от двух форм точек данных, тогда как второе уравнение использует информацию только от точек данных, которые имеют предикторные значения. Мое обучение статистике ограничено, и поэтому я хотел бы обратиться за профессиональным советом.
Кроме того, в целом, каков наилучший подход к данным, которые содержат неполную информацию? Другими словами, как мы можем извлечь наибольшую информацию из данных, которые не имеют значений во всех измерениях?