Я никогда не нашел ни одного хорошего текста или примеров того, как обрабатывать «несуществующие» данные для входов в какой-либо классификатор. Я много читал о пропущенных данных, но что можно сделать с данными, которые не могут или не существуют в отношении многомерных входных данных. Я понимаю, что это очень сложный вопрос, и он будет варьироваться в зависимости от используемых методов обучения ...
Например, если вы пытаетесь предсказать время прохождения круга для нескольких бегунов с хорошими точными данными. Среди многих входных данных возможные переменные среди многих:
- Входная переменная - Первый бегун (Да / Нет)
- Переменная ввода - предыдущий круг (0 - 500 секунд)
- Входная переменная - Возраст
- Входная переменная - высота. , , много других входных переменных и т. д.
Predictor & Output - прогнозируемое время простоя (0 - 500 секунд)
«Отсутствующая переменная» для «2.Previous laptime» может быть вычислена несколькими способами, но «1. Первый раз 'всегда будет равен N. Но для «НЕТ СУЩЕСТВУЮЩИХ ДАННЫХ» для первого бегуна (где «1. Первый бегун» = Y) какое значение / обработку я должен дать для «2. Предыдущее время круга?
Например, присвоение «2. Предыдущее время прохождения '-99 или 0 может существенно исказить распределение и создать впечатление, что новый бегун показал себя хорошо.
Мои текущие методы обучения используют Логистическую регрессию, SVM, NN и деревья решений