5
Должен ли я пойти на «сбалансированный» набор данных или «представительный» набор данных?
Моя задача «машинного обучения» - отделить доброкачественный интернет-трафик от вредоносного. В сценарии реального мира большая часть (скажем, 90% или более) интернет-трафика является доброкачественной. Таким образом, я почувствовал, что должен выбрать аналогичную настройку данных для обучения своих моделей. Но я наткнулся на одну или две исследовательские работы (в своей области работы), …