(Если вы говорите о контролируемом обучении)
Связанные функции не всегда ухудшат вашу модель, но они также не всегда улучшат ее.
Есть три основные причины, по которым вы бы удалили связанные функции:
- Сделайте алгоритм обучения быстрее
Из-за проклятия размерности, меньшее количество функций обычно означает значительное улучшение с точки зрения скорости.
Если скорость не является проблемой, возможно, не удаляйте эти функции сразу (см. Следующий пункт)
Ключевое слово вредно. Если у вас есть связанные функции, но они также связаны с целью, вы хотите сохранить их. Вы можете рассматривать функции как подсказки, чтобы сделать правильное предположение, если у вас есть два совета, которые по сути одинаковы, но они являются хорошими подсказками, может быть целесообразно оставить их.
Некоторые алгоритмы, такие как Наивный Байес, на самом деле напрямую извлекают выгоду из «положительных» коррелированных функций. И другие, как случайный лес, могут косвенно извлечь из них пользу.
Представьте, что у вас есть 3 функции A, B и C. A и B тесно связаны с целью и друг с другом, а C - нет вообще. Если вы выберете одну из трех функций, у вас будет 2/3 шанса получить «хорошую» функцию, тогда как, если вы удалите, например, B, этот шанс упадет до 1/2.
Конечно, если взаимосвязанные функции не являются суперинформативными, алгоритм может не сильно пострадать.
Таким образом, мораль истории, удаление этих функций может быть необходимым из-за скорости, но помните, что вы могли бы ухудшить ваш алгоритм в процессе. Кроме того, некоторые алгоритмы, такие как деревья решений, имеют встроенный выбор функций.
Хороший способ справиться с этим - использовать метод-обертку для выбора функций. Это удалит избыточные функции, только если они не влияют непосредственно на производительность. Если они полезны как в наивных байесах, они будут сохранены. (Хотя помните, что методы-обертки дороги и могут привести к переоснащению)
- Интерпретируемость вашей модели
Если ваша модель должна быть интерпретируемой, возможно, вам придется ее упростить. Не забудьте также запомнить бритву Оккама. Если ваша модель не «намного» хуже с меньшим количеством функций, то вам, вероятно, следует использовать меньше функций.