Моя задача «машинного обучения» - отделить доброкачественный интернет-трафик от вредоносного. В сценарии реального мира большая часть (скажем, 90% или более) интернет-трафика является доброкачественной. Таким образом, я почувствовал, что должен выбрать аналогичную настройку данных для обучения своих моделей. Но я наткнулся на одну или две исследовательские работы (в своей области работы), в которых для обучения моделей использовался подход «балансировки классов», подразумевающий одинаковое количество случаев доброкачественного и злонамеренного трафика.
В общем, если я строю модели машинного обучения, должен ли я использовать набор данных, который представляет проблему реального мира, или сбалансированный набор данных лучше подходит для построения моделей (поскольку некоторые классификаторы плохо себя ведут с дисбалансом классов, или по другим неизвестным мне причинам)?
Может ли кто-то пролить больше света на плюсы и минусы как выбора, так и того, как решить, какой из них выбрать?