Как обрабатывать несуществующие (не пропущенные) данные?

11

Я никогда не нашел ни одного хорошего текста или примеров того, как обрабатывать «несуществующие» данные для входов в какой-либо классификатор. Я много читал о пропущенных данных, но что можно сделать с данными, которые не могут или не существуют в отношении многомерных входных данных. Я понимаю, что это очень сложный вопрос, и он будет варьироваться в зависимости от используемых методов обучения ...

Например, если вы пытаетесь предсказать время прохождения круга для нескольких бегунов с хорошими точными данными. Среди многих входных данных возможные переменные среди многих:

Входная переменная - Первый бегун (Да / Нет)
Переменная ввода - предыдущий круг (0 - 500 секунд)
Входная переменная - Возраст
Входная переменная - высота. , , много других входных переменных и т. д.

Predictor & Output - прогнозируемое время простоя (0 - 500 секунд)

«Отсутствующая переменная» для «2.Previous laptime» может быть вычислена несколькими способами, но «1. Первый раз 'всегда будет равен N. Но для «НЕТ СУЩЕСТВУЮЩИХ ДАННЫХ» для первого бегуна (где «1. Первый бегун» = Y) какое значение / обработку я должен дать для «2. Предыдущее время круга?

Например, присвоение «2. Предыдущее время прохождения '-99 или 0 может существенно исказить распределение и создать впечатление, что новый бегун показал себя хорошо.

Мои текущие методы обучения используют Логистическую регрессию, SVM, NN и деревья решений

missing-data

— osknows
источник

Я должен добавить, что я выбрасывал новых бегунов из данных тренировок и прогнозов из-за присущей им неопределенности, но был бы признателен за любые лучшие методы, чем «Игнорировать»

— osknows

6

Вместо того, чтобы назначать специальное значение для несуществующего времени первого круга в первом круге, просто используйте термин взаимодействия для времени предыдущего круга с обратным манекеном для первого бегуна:

Y_{i} = β_{0} + β_{1} F T R_{i} + β_{2} (N F T R_{i}) \times P L T_{i} + . . .

$Y_i=\beta_0+\beta_1 FTR_i+\beta_2 (NFTR_i)\times PLT_i+...$

Вот

$Y_i$ - ваша входная переменная,
$...$ ваши другие переменные,
$FTR_i$ - пустышка для первого бегуна,
$PLT_i$ - время предыдущего круга и
$NFTR_i$ является фиктивным для не в первый раз, равным 1, когда и 0 в противном случае. $FTR_i=0$

Тогда модель для начинающих бегунов будет:

Y_{i} = (β_{0} + β_{1}) + . . .

$Y_i=(\beta_0+\beta_1) + ...$

и для не бегунов первого раза:

Y_{i} = β_{0} + β_{2} P L T_{i} + . . .

$Y_i=\beta_0+ \beta_2 PLT_i + ...$

— mpiktas
источник

8

Для логистической регрессии, подобранной по максимальному правдоподобию, при условии, что у вас есть (1) и (2) в модели, тогда независимо от того, какое значение «по умолчанию» вы дадите новым участникам для (2), оценка для (1) будет корректироваться соответственно.

$X_1$ $X_2$

$\eta = \alpha + \beta_1 X_1 + \beta_2 X_2 + \ldots$

$X_2$

$\eta = \alpha + \beta_1 + \ldots$

тогда как для существующего бегуна это будет:

$\eta = \alpha + \beta_2 X_2 + \ldots$

$X_2$

$\eta = \alpha + \beta'_1 - 99 \beta_2 + \ldots$

$\beta'_1 - 99 \beta_2 = \beta_1$

Конечно, если вы не используете максимальное правдоподобие (т. Е. Вы используете какой-либо вид наказания или априор по параметрам), то вы получите другие значения, если не отрегулируете штраф / априор соответственно. И если модель нелинейная (например, SVM, NN и деревья решений), то этот аргумент не работает вообще.

— Саймон Бирн
источник