У нас уже было несколько вопросов о несбалансированных данных при использовании логистической регрессии , SVM , деревьев решений , пакетов и ряда других подобных вопросов, что делает эту тему очень популярной! К сожалению, каждый из вопросов, похоже, зависит от алгоритма, и я не нашел каких-либо общих рекомендаций по работе с несбалансированными данными.
Цитируя один из ответов Марка Клезена , касающийся несбалансированных данных
(...) сильно зависит от метода обучения. Большинство подходов общего назначения имеют один (или несколько) способов справиться с этим.
Но когда именно мы должны беспокоиться о несбалансированных данных? На какие алгоритмы это больше всего влияет и какие способны с этим справиться? Какие алгоритмы понадобятся нам для балансировки данных? Я знаю, что обсуждение каждого из алгоритмов было бы невозможно на сайте вопросов и ответов, как это, я скорее ищу общие рекомендации о том, когда это может быть проблемой.