Предположим, я хочу узнать классификатор, который принимает вектор чисел в качестве входных данных и дает метку класса в качестве выходных данных. Мои тренировочные данные состоят из большого количества пар ввода-вывода.
Тем не менее, когда я прихожу к тестированию на некоторых новых данных, эти данные, как правило, только частично завершены. Например, если входной вектор имеет длину 100, только 30 из элементов могут иметь заданные значения, а остальные являются «неизвестными».
В качестве примера этого рассмотрим распознавание изображений, когда известно, что часть изображения закрыта. Или рассмотрите классификацию в общем смысле, когда известно, что часть данных повреждена. Во всех случаях я точно знаю, какие элементы в векторе данных являются неизвестными частями.
Мне интересно, как я могу узнать классификатор, который будет работать для такого рода данных? Я мог бы просто установить «неизвестные» элементы на случайное число, но, учитывая, что часто неизвестных элементов больше, чем известных, это не похоже на хорошее решение. Или я мог бы произвольно изменить элементы в обучающих данных на «неизвестные» и тренироваться с этими, а не с полными данными, но это может потребовать исчерпывающей выборки всех комбинаций известных и неизвестных элементов.
В частности, я думаю о нейронных сетях, но я открыт для других классификаторов.
Любые идеи? Благодаря!