У меня есть сильно смещенный набор двоичных данных - у меня в 1000 раз больше примеров отрицательного класса, чем положительного. Я хотел бы обучить ансамбль дерева (например, дополнительные случайные деревья или случайный лес) на этих данных, но сложно создать обучающие наборы данных, которые содержат достаточно примеров положительного класса.
Каковы будут последствия применения стратифицированного подхода к выборке для нормализации числа положительных и отрицательных примеров? Другими словами, является ли плохой идеей, например, искусственно раздувать (путем повторной выборки) количество положительных примеров в учебном наборе?