Техника, которую вы описываете, называется вменением последовательными регрессиями или множественным вменением связанными уравнениями. Этот метод был впервые применен Raghunathan (2001) и реализован в хорошо работающем R-пакете mice
(van Buuren, 2012).
В статье Schafer and Graham (2002) хорошо объясняется, почему среднее вменение и списочное удаление (то, что вы называете исключением строки) обычно не являются хорошей альтернативой вышеупомянутым методам. Принципиально среднее вменение не является условным и, таким образом, может смещать вмененные распределения в сторону наблюдаемого среднего значения. Это также сократит дисперсию среди других нежелательных воздействий на вмененное распределение. Кроме того, удаление по списку действительно будет работать только в том случае, если данные полностью отсутствуют случайным образом, например, подбрасыванием монеты. Также это увеличит ошибку выборки, так как размер выборки уменьшается.
Приведенные выше авторы обычно рекомендуют начинать с переменной с наименьшим отсутствующим значением. Кроме того, техника обычно применяется байесовским способом (то есть является продолжением вашего предложения). Переменные посещаются чаще в процедуре вменения, а не только один раз. В частности, каждая переменная дополняется извлечениями из ее условного апостериорного предиктивного распределения, начиная с переменной, содержащей наименьшие пропущенные значения. Как только все переменные в наборе данных были завершены, алгоритм снова запускается с первой переменной, а затем повторяется до сходимости. Авторы показали, что этот алгоритм является гиббсовским, поэтому он обычно сходится к правильному многомерному распределению переменных.
Обычно, потому что существуют некоторые непроверяемые допущения, в частности, отсутствующие случайные данные (т.е., наблюдаются ли данные или нет, зависит только от наблюдаемых данных, а не от ненаблюдаемых значений). Также процедуры могут быть частично несовместимыми, поэтому их называют PIGS (частично несовместимый пробоотборник Гиббса).
На практике байесовское множественное вменение все еще является хорошим способом решения многомерных немонотонных проблем с отсутствующими данными. Кроме того, непараметрические расширения, такие как прогнозирование соответствия среднего значения, помогают ослабить предположения регрессионного моделирования.
Рагхунатан Т.Е., Лепковски Дж., Ван Хоувик Дж. И Соленбергер П. (2001). Многомерный метод для многократного вменения пропущенных значений с использованием последовательности моделей регрессии. Методология исследования, 27 (1), 85–95.
Schafer, JL, & Graham, JW (2002). Недостающие данные: наш взгляд на современное состояние. Психологические методы, 7 (2), 147–177. https://doi.org/10.1037/1082-989X.7.2.147
van Buuren, S. (2012). Гибкое вложение недостающих данных. Бока Ратон: CRC Press.