Мой вопрос: почему случайный лес учитывает случайные подмножества объектов для разбиения на уровне узла в каждом дереве, а не на уровне дерева ?
Справочная информация: это вопрос истории. Тин Кам Хо опубликовал эту статью о построении «лесов принятия решений» путем случайного выбора подмножества объектов, которые будут использоваться для выращивания каждого дерева в 1998 году. Несколько лет спустя, в 2001 году, Лео Брейман опубликовал свою оригинальную статью « Случайный лес» , в которой подмножество объектов является случайным образом. выбран в каждом узле в каждом дереве, а не в каждом дереве. В то время как Брейман цитировал Хо, он конкретно не объяснил переход от случайного выбора объектов на уровне дерева к уровню узла.
Мне интересно, что конкретно мотивировало это развитие. Похоже, что выбор подмножества объектов на уровне дерева все же обеспечит желаемую декорреляцию деревьев.
Моя теория: я не видел, чтобы это было сформулировано в другом месте, но кажется, что метод случайных подпространств был бы менее эффективным с точки зрения получения оценок важности функций. Чтобы получить оценки переменной важности, для каждого дерева характеристики случайным образом переставляются одна за другой, и регистрируется увеличение ошибочной классификации или увеличение погрешности для наблюдений вне пакета. Переменные, для которых высока ошибочная классификация или увеличение ошибки в результате этой случайной перестановки, имеют наибольшее значение.
То, на что я смотрел до сих пор: до сих пор я прочитал статью Бреймана и статью Хо и провел широкий онлайн-поиск сравнений методов, не найдя однозначного ответа. Обратите внимание, что аналогичный вопрос был задан ранее. Этот вопрос идет немного дальше, включая мои предположения / работу по поиску возможного решения. Я был бы заинтересован в любых ответах, соответствующих цитатах или имитационных исследованиях, сравнивающих два подхода. Если ничего не выйдет, я планирую провести собственную симуляцию, сравнивая два метода.