Я не уверен, что это вопрос с простым ответом, и при этом я не верю, что это вопрос, который даже нужно задавать относительно деревьев решений.
Проконсультируйтесь с Асланом и соавт. , Вычисление VC-Dimension деревьев (2009). Они решают эту проблему, выполняя исчерпывающий поиск по маленьким деревьям, а затем предоставляя приблизительную рекурсивную формулу для оценки измерения VC на больших деревьях. Затем они используют эту формулу как часть алгоритма сокращения. Если бы на ваш вопрос был закрытый ответ, я уверен, что они его предоставили бы. Они чувствовали необходимость пройти через даже довольно маленькие деревья.
Мои два цента стоят. Я не уверен, что имеет смысл говорить об измерении VC для принятия решений. Рассмотрим мерный ответ, где каждый элемент является двоичным результатом. Это ситуация, рассматриваемая Aslan et al. Есть 2 г возможных результатов в этом образце пространстве и 2 г возможных моделей реагирования. Если я построю полное дерево с d уровнями и 2 d листьями, то я могу разбить любой шаблон 2 dd2d2dd2d2dответы. Но никто не подходит для полных деревьев. Как правило, вы надеваете и затем сокращаете, используя перекрестную проверку. В итоге вы получите дерево меньшего размера и более простое, но ваш набор гипотез все еще велик. Аслан и соавт. попытаться оценить VC размерность семейств изоморфных деревьев. Каждая семья представляет собой набор гипотез со своим собственным измерением VC.
d= 3( 1 , 0 , 0 , 1 ) , ( 1 , 1 , 1 , 0 ) , ( 0 , 1 , 0 , 1 ) , ( 1 , 1 , 0 , 1 )х 1х 2
Решение Аслана о грубой силе, кажется, работает довольно хорошо, но в действительности они получают не измерение VC алгоритмов, которые используют люди, поскольку они полагаются на сокращение и перекрестную проверку. Трудно сказать, что на самом деле представляет собой пространство гипотез, поскольку в принципе мы начинаем с сокрушительного числа возможных деревьев, а затем возвращаемся к чему-то более разумному. Даже если кто-то начинает с априорного выбора не выходить за пределы двух слоев, скажем, все же может возникнуть необходимость в обрезке дерева. И нам действительно не нужно измерение VC, так как перекрестная проверка выполняется непосредственно после ошибки из образца.
Чтобы быть справедливым к Аслану и др., Они не используют измерение VC, чтобы характеризовать их пространство гипотезы. Они вычисляют размерность ветвей VC и используют это количество, чтобы определить, следует ли вырезать ветвь. На каждом этапе они используют измерение VC конкретной конфигурации рассматриваемой ветви. Они не смотрят на размерность проблемы в целом.
Если ваши переменные являются непрерывными, и ответ зависит от достижения порога, то дерево решений в основном создает группу перцептронов, поэтому измерение VC, вероятно, будет больше этого (поскольку для оценки разделения необходимо оценить точку отсечения) , Если ответ монотонно зависит от непрерывного ответа, CART разделит его на несколько шагов, пытаясь воссоздать регрессионную модель. Я бы не использовал деревья в этом случае - возможно, гам или регресс.