Я пытаюсь понять, как полностью понять процесс принятия решений модели классификации дерева решений, построенной с использованием sklearn. Два основных аспекта, на которые я смотрю, - это графическое представление дерева и список важных функций. Что я не понимаю, так это то, как важность функции определяется в контексте дерева. Например, вот мой список функций:
Рейтинг функций: 1. FeatureA (0.300237)
FeatureB (0.166800)
FeatureC (0.092472)
FeatureD (0.075009)
FeatureE (0.068310)
FeatureF (0.067118)
FeatureG (0.066510)
FeatureH (0.043502)
FeatureI (0.040281)
FeatureJ (0.039006)
FeatureK (0.032618)
FeatureL (0.008136)
FeatureM (0,000000)
Однако, когда я смотрю на верхушку дерева, это выглядит так:
На самом деле, некоторые из функций, которые ранжируются как «наиболее важные», появляются не намного дальше вниз по дереву, а верхняя часть дерева - FeatureJ, которая является одной из функций с самым низким рейтингом. Мое наивное предположение состояло бы в том, что наиболее важные элементы будут располагаться в верхней части дерева, чтобы иметь наибольшее влияние. Если это неверно, то что делает функцию «важной»?