Я пытаюсь разработать прогностическую модель, используя многомерные клинические данные, включая лабораторные данные. Пространство данных невелико с 5 тыс. Выборок и 200 переменных. Идея состоит в том, чтобы ранжировать переменные, используя метод выбора признаков (IG, RF и т. Д.), И использовать функции высшего ранга для разработки прогнозной модели.
В то время как выбор функций идет хорошо с наивным байесовским подходом, сейчас я сталкиваюсь с проблемой реализации прогностической модели из-за отсутствия данных (NA) в моем переменном пространстве. Есть ли какой-нибудь алгоритм машинного обучения, который может аккуратно обрабатывать образцы с отсутствующими данными?