Он-лайн случайные леса, добавив больше деревьев решений


13

Случайный лес (RF) создается ансамблем деревьев решений (DT). Благодаря использованию пакетов каждый DT обучается в отдельном подмножестве данных. Следовательно, есть ли способ реализовать случайный лес в режиме онлайн, добавив больше решений для новых данных?

Например, у нас есть 10K образцов и обучаем 10 DT. Затем мы получаем 1K выборок, и вместо того, чтобы снова тренировать полный RF, мы добавляем новый DT. Прогноз теперь делается по среднему байесовскому значению 10 + 1 DT.

Кроме того, если мы сохраним все предыдущие данные, новые DT могут быть обучены главным образом новым данным, где вероятность выбора выборки взвешивается в зависимости от того, сколько раз уже было выбрано.

Ответы:


8

Недавно появилась статья на эту темуСлучайные случайные леса» ), пришедшая из компьютерного зрения. Вот реализация и презентация: онлайн случайные леса за 10 минут


Реализация, о которой вы упомянули, следует стратегии выращивания деревьев, например, лесам Мондрии ( arxiv.org/abs/1406.2673 ). Следовательно, количество деревьев постоянно, а количество расщеплений увеличивается. Мой вопрос сосредоточен на увеличении количества деревьев для новых образцов, при этом оставаясь нетронутыми ранее обученные деревья.
Ташухка

1
Как это ? Разве вы не хотите сбрасывать деревья в случае необходимости?
Эмре

Спасибо. Это больше похоже на то, что я ищу. В этом случае используйте RF для выбора функции изменяющихся во времени сигналов. Тем не менее, конкретная реализация и валидность метода довольно неясны, вы знаете, если они что-то опубликовали (Google не помог)?
Ташухка


Спасибо за ссылку! Я вижу, что они фактически обновляют все предыдущие деревья, используя стратегию выращивания деревьев, и я заинтересован в создании новых DT с новыми данными, не затрагивая старые деревья.
Ташухка
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.