Случайный лес на сгруппированных данных

11

Я использую случайный лес на многомерных сгруппированных данных (50 числовых входных переменных), которые имеют иерархическую структуру. Данные были собраны с 6 повторениями в 30 положениях 70 различных объектов, что привело к 12600 точкам данных, которые не являются независимыми.

Кажется, что случайный лес перегружает данные, так как ошибка oob намного меньше ошибки, которую мы получаем, когда пропускаем данные из одного объекта во время обучения, а затем прогнозируем результат опущенного объекта с обученным случайным лесом. Кроме того, я коррелировал остатки.

Я думаю, что переоснащение вызвано тем, что случайный лес ожидает независимых данных. Можно ли рассказать случайному лесу об иерархической структуре данных? Или есть другой мощный метод ансамбля или сжатия, который может обрабатывать многомерные сгруппированные данные с сильной структурой взаимодействия?

Любой намек, как я могу сделать лучше?

regression random-forest

— Беате
источник

Какова природа иерархических данных? Позволяет ли вам использовать листья данных в качестве точек данных?

— casperOne

1

Рассматривали ли вы начальную загрузку высшего уровня иерархии, а не отдельного человека?

— generic_user

1

Очень поздно на вечеринку, но я думаю, что это может быть связано с тем, что я сделал несколько лет назад. Эта работа была опубликована здесь:

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0093379

и о работе с переменной корреляцией в ансамбле деревьев решений. Вы должны взглянуть на библиографию, которая указывает на многие предложения по решению этого типа проблем (что является распространенным в «генетической» области).

Исходный код доступен здесь (но больше не поддерживается).

— 0asa
источник

-1

Перенастройка случайного леса может быть вызвана разными причинами, и это сильно зависит от параметров RF. Из вашего поста не ясно, как вы настроили свой RF.

Вот несколько советов, которые могут помочь:

Увеличить количество деревьев
Настройте максимальную глубину деревьев. Этот параметр сильно зависит от проблемы. Использование меньших деревьев может помочь с проблемой переоснащения.

— Белла Фадида
источник

2

Очень поздно для вечеринки, но этот ответ не решит никаких проблем из-за иерархической природы набора данных.

— cbeleites недоволен SX