Интуитивное объяснение было объяснено в блоге:
Если нашей целью является прогнозирование, это вызовет определенный уклон. И что еще хуже, это будет постоянный уклон, в том смысле, что у нас не будет последовательных оценок по мере роста объема выборки.
Таким образом, возможно, проблема (искусственно) сбалансированных данных хуже, чем несбалансированный случай.
Сбалансированные данные хороши для классификации, но вы, очевидно, теряете информацию о частотах появления, что повлияет на сами показатели точности, а также на производительность производства.
Допустим, вы узнаете рукописные буквы английского алфавита (26 букв). Избыточный баланс каждой буквы даст каждой букве вероятность быть классифицированной (правильно или нет) примерно 1/26, поэтому классификатор забудет о фактическом распределении букв в исходном образце. И это нормально, когда классификатор может обобщать и распознавать каждую букву с высокой точностью .
Но если точность и, что самое важное, обобщение не настолько «высоки» (я не могу дать вам определение - вы можете думать об этом просто как о «наихудшем случае») - неправильно классифицированные баллы, скорее всего, будут равномерно распределены между всеми буквами , что-то типа:
"A" was misclassified 10 times
"B" was misclassified 10 times
"C" was misclassified 11 times
"D" was misclassified 10 times
...and so on
В отличие от без балансировки (при условии, что «А» и «С» имеют гораздо более высокие вероятности появления в тексте)
"A" was misclassified 3 times
"B" was misclassified 14 times
"C" was misclassified 3 times
"D" was misclassified 14 times
...and so on
Так что частые случаи получат меньше ошибочных классификаций. Хорошо это или нет, зависит от вашей задачи. Для естественного распознавания текста можно утверждать, что буквы с более высокими частотами более жизнеспособны, поскольку они сохранят семантику исходного текста, приближая задачу распознавания к предсказанию (где семантика представляет тенденции ). Но если вы пытаетесь распознать что-то вроде скриншота ECDSA-ключа (больше энтропии -> меньше прогноза) - сохранение несбалансированных данных не поможет. Итак, опять же, это зависит.
Самое важное различие заключается в том, что оценка точности сама по себе становится предвзятой (как вы можете видеть на примере сбалансированного алфавита), поэтому вы не знаете, как на поведение модели влияют самые редкие или самые частые точки.
PS Вы всегда можете сначала отследить эффективность несбалансированной классификации с помощью метрик Precision / Recall и решить, нужно ли вам добавлять балансировку или нет.
р ( хя| θ)р ( хя| θ^)θ^я- θяИногда рекомендуется перебалансировать классы в соответствии либо с самой популяцией, либо с параметрами, известными из большой выборки (таким образом, с лучшей оценкой). Однако на практике нет гарантии, что «большая выборка» будет одинаково распределена из-за риска получения смещенных данных на каждом шаге (скажем, английские буквы, собранные из технической литературы против художественной литературы против всей библиотеки), так что балансировка все еще может быть вредной.
Этот ответ также должен уточнить критерии применимости для балансировки:
Проблема дисбаланса классов вызвана отсутствием достаточного количества образцов, принадлежащих к классу меньшинства, а не соотношением самих положительных и отрицательных образцов. Как правило, если у вас достаточно данных, «проблема дисбаланса класса» не возникает
В заключение, искусственный баланс редко бывает полезен, если тренировочный набор достаточно велик. Отсутствие статистических данных из более крупной идентично распределенной выборки также указывает на то, что нет необходимости в искусственном балансировании (особенно для прогнозирования), в противном случае качество оценки так же хорошо, как и «вероятность встретить динозавра»:
Какова вероятность встретить динозавра на улице?
1/2 вы либо встречаете динозавра, либо не встречаете динозавра