Это интересная и очень частая проблема в классификации - не только в деревьях решений, но и практически во всех алгоритмах классификации.
Как вы обнаружили эмпирически, учебный набор, состоящий из различного числа представителей от каждого класса, может привести к тому, что классификатор будет смещен в сторону большинства. При применении к тестовому набору с аналогичным дисбалансом этот классификатор дает оптимистическую оценку точности. В крайнем случае классификатор может назначить каждый отдельный контрольный пример классу большинства, тем самым достигая точности, равной пропорции контрольных примеров, относящихся к классу большинства. Это хорошо известное явление в бинарной классификации (и оно естественным образом распространяется на мультиклассовые настройки).
Это важный вопрос, поскольку несбалансированный набор данных может привести к завышенным оценкам производительности. Это, в свою очередь, может привести к ложным выводам о значении, с которым алгоритм работал лучше, чем случайность.
Литература по машинному обучению по этой теме в основном разработала три стратегии решения.
Вы можете восстановить баланс в тренировочном наборе за счет недостаточной выборки большого класса или избыточной выборки малого класса, чтобы предотвратить возникновение предвзятости в первую очередь.
В качестве альтернативы вы можете изменить затраты на неправильную классификацию, как отмечалось в предыдущем ответе, снова, чтобы предотвратить смещение.
ϕ : = 12( π++ π-) ,π+π-
Я бы рекомендовал рассмотреть как минимум два из вышеперечисленных подходов совместно. Например, вы можете пересчитать свой класс меньшинства, чтобы ваш классификатор не получил смещения в пользу класса большинства. После этого при оценке производительности вашего классификатора вы можете заменить точность на сбалансированную точность. Два подхода дополняют друг друга. При совместном применении они должны помочь вам предотвратить исходную проблему и избежать ложных выводов, вытекающих из нее.
Я был бы рад опубликовать некоторые дополнительные ссылки на литературу, если вы хотели бы продолжить.