В недавнем, хорошо полученном вопросе Тим спрашивает, когда несбалансированные данные действительно являются проблемой в машинном обучении ? Предпосылка вопроса заключается в том, что существует много литературы по машинному обучению, в которой обсуждается баланс классов и проблема несбалансированных классов . Идея состоит в том, что наборы данных с дисбалансом между положительным и отрицательным классом вызывают проблемы для некоторых алгоритмов классификации машинного обучения (я включаю здесь вероятностные модели), и следует искать методы, чтобы «сбалансировать» набор данных, восстанавливая идеальные 50/50 разделить между положительными и отрицательными классами.
Общий смысл ответов с отбитым голосом состоит в том, что «это не так, по крайней мере, если вы вдумчивы в своем моделировании». М. Генри Л. в своем комментарии к принятому ответу с утверждением утверждает,
[...] нет проблем низкого уровня с использованием несбалансированных данных. По моему опыту, совет «избегать несбалансированных данных» зависит либо от алгоритма, либо от унаследованной мудрости. Я согласен с AdamO, что в целом несбалансированные данные не представляют концептуальной проблемы для четко определенной модели.
AdamO утверждает, что «проблема» с балансом классов действительно является проблемой редкости
Поэтому, по крайней мере, в регрессии (но я подозреваю, что при любых обстоятельствах), единственная проблема с несбалансированными данными заключается в том, что у вас фактически небольшой размер выборки. Если какой-либо метод подходит для числа людей в более редком классе, не должно быть никаких проблем, если их пропорциональное членство несбалансировано.
Если это настоящая проблема, остается открытым вопрос: какова цель всех методов повторной выборки, предназначенных для балансировки набора данных: избыточная выборка, недостаточная выборка, SMOTE и т. Д.? Очевидно, что они не решают проблему неявного небольшого размера выборки, вы не можете создавать информацию из ничего!