У меня есть опыт работы в области компьютерных наук, но я пытаюсь научить себя науке данных, решая проблемы в Интернете.
Я работал над этой проблемой последние пару недель (около 900 строк и 10 функций). Сначала я использовал логистическую регрессию, но теперь я переключился на случайные леса. Когда я запускаю свою модель случайного леса на моих тренировочных данных, я получаю действительно высокие значения auc (> 99%). Однако, когда я запускаю ту же модель на тестовых данных, результаты не так хороши (точность около 77%). Это заставляет меня поверить, что я переоцениваю данные тренировок.
Каковы наилучшие методы предотвращения чрезмерной подгонки в случайных лесах?
Я использую r и rstudio в качестве среды разработки. Я использую randomForest
пакет и принял значения по умолчанию для всех параметров