Я использую случайный лес на многомерных сгруппированных данных (50 числовых входных переменных), которые имеют иерархическую структуру. Данные были собраны с 6 повторениями в 30 положениях 70 различных объектов, что привело к 12600 точкам данных, которые не являются независимыми.
Кажется, что случайный лес перегружает данные, так как ошибка oob намного меньше ошибки, которую мы получаем, когда пропускаем данные из одного объекта во время обучения, а затем прогнозируем результат опущенного объекта с обученным случайным лесом. Кроме того, я коррелировал остатки.
Я думаю, что переоснащение вызвано тем, что случайный лес ожидает независимых данных. Можно ли рассказать случайному лесу об иерархической структуре данных? Или есть другой мощный метод ансамбля или сжатия, который может обрабатывать многомерные сгруппированные данные с сильной структурой взаимодействия?
Любой намек, как я могу сделать лучше?