В простой классификации у нас есть два класса: класс-0 и класс-1. В некоторых данных у меня есть только значения для класса-1, поэтому нет для класса-0. Сейчас я думаю о создании модели для моделирования данных для класса 1. Таким образом, когда поступают новые данные, эта модель применяется к новым данным и находит вероятность, указывающую, насколько вероятно, что новые данные соответствуют этой модели. Затем, сравнивая с порогом, я могу отфильтровать несоответствующие данные.
Мои вопросы:
- Это хороший способ работать с такими проблемами?
- Можно ли использовать в этом случае классификатор RandomForest? Нужно ли добавлять искусственные данные для класса 0, которые, я надеюсь, классификатор считает шумом?
- Любая другая идея может помочь для этой проблемы?