Я работаю над проектом машинного обучения с данными, которые уже (сильно) смещены при выборе данных.
Предположим, у вас есть набор жестко закодированных правил. Как вы строите модель машинного обучения, чтобы заменить ее, когда все данные, которые она может использовать, являются данными, которые уже были отфильтрованы по этим правилам?
Чтобы прояснить ситуацию, я думаю, что лучшим примером будет Оценка кредитного риска : задача состоит в том, чтобы отфильтровать всех клиентов, которые, вероятно, не смогут произвести платеж.
- Теперь единственные (помеченные) данные, которые у вас есть, от клиентов, которые были приняты набором правил, потому что только после принятия вы увидите, платит ли кто-то или нет (очевидно). Вы не знаете, насколько хорош набор правил и насколько они повлияют на распределение платных и неоплачиваемых. Кроме того, у вас есть немаркированные данные от клиентов, которые были отклонены, опять же из-за набора правил. Таким образом, вы не знаете, что случилось бы с этими клиентами, если бы они были приняты.
Например, одним из правил может быть: «Если возраст клиента <18 лет, то не принимайте»
Классификатор не может научиться работать с клиентами, отфильтрованными по этим правилам. Как классификатор должен изучать образец здесь?
Игнорирование этой проблемы приведет к тому, что модель подвергнется воздействию данных, с которыми она никогда раньше не сталкивалась. По сути, я хочу оценить значение f (x), когда x находится вне [a, b] здесь.