На самом деле я пишу реализацию Случайных Лесов, но я считаю, что вопрос специфичен для деревьев решений (независимо от RF).
Таким образом, контекст заключается в том, что я создаю узел в дереве решений, и предсказание и целевые переменные являются непрерывными. Узел имеет пороговое значение для разделения данных на два набора, и я создаю новый прогноз для каждого поднабора на основе среднего целевого значения в каждом наборе. Это правильный подход?
Причина, по которой я спрашиваю, заключается в том, что при прогнозировании бинарных переменных я считаю, что типичный (правильный?) Подход заключается в разделении данных на 0 и 1 подмножеств без усреднения по строкам данных в каждом подмножестве. Последующие расщепления будут делиться на более мелкозернистые подмножества, и взятие среднего значения при каждом расщеплении приводит к последующим расщеплениям (опускается вниз по дереву решений), работающим с непрерывными переменными, а не с двоичными переменными (потому что мы работаем со значениями остаточной ошибки вместо исходных цели).
Дополнительный вопрос: Является ли различие между двумя подходами (двоичным и непрерывным) существенным или они действительно дадут идентичные результаты для полного дерева решений?