Это вопрос в целом, не относящийся к какому-либо методу или набору данных. Как мы решаем проблему дисбаланса классов в обучении с использованием контролируемой машины, где число 0 составляет около 90%, а число 1 составляет около 10% в вашем наборе данных. Как оптимально обучить классификатор.
Одним из способов, которым я следую, является выборка, чтобы сбалансировать набор данных, а затем обучить классификатор и повторить это для нескольких выборок.
Я чувствую, что это случайно, есть ли рамки для решения подобных проблем.