Я изучаю различные методы классификации для проекта, над которым я работаю, и заинтересован в попытках использовать «Случайные леса». Я стараюсь обучаться сам по себе, и буду признателен за любую помощь, предоставленную сообществом CV.
Я разделил свои данные на тренировочные / тестовые наборы. После экспериментов со случайными лесами в R (с использованием пакета randomForest) у меня возникли проблемы с высокой ошибочной классификацией для моего меньшего класса. Я читал эту статью о производительности случайных лесов на несбалансированных данных, и авторы представили два метода борьбы с дисбалансом классов при использовании случайных лесов.
1. Взвешенные случайные леса
2. Сбалансированные случайные леса
Пакет R не позволяет взвешивать классы (из справочных форумов R я прочитал, что параметр classwt не работает должным образом и запланирован как исправление будущей ошибки), поэтому у меня остается опция 2. Я могу указать количество объектов, выбранных из каждого класса для каждой итерации случайного леса.
Мне неловко задавать одинаковые размеры выборки для случайных лесов, так как я чувствую, что потерял бы слишком много информации о большем классе, что привело бы к снижению производительности будущих данных. Показатели неправильной классификации при понижении выборки для большего класса показали улучшение, но мне было интересно, есть ли другие способы борьбы с несбалансированными размерами классов в случайных лесах?