Обязательно ли проводить нормализацию для SVM и Random Forest?


Ответы:


29

Ответ на ваш вопрос зависит от того, какую функцию сходства / расстояния вы планируете использовать (в SVM). Если это простое (невзвешенное) евклидово расстояние, то, если вы не нормализуете свои данные, вы невольно придаете некоторым функциям большую важность, чем другим.

Например, если ваше первое измерение находится в диапазоне от 0 до 10, а второе измерение от 0 до 1, разница в 1 в первом измерении (всего одна десятая диапазона) вносит такой же вклад в вычисление расстояния, как и два дико отличающихся значения в второе измерение (0 и 1). Делая это, вы преувеличиваете небольшие различия в первом измерении. Конечно, вы можете придумать пользовательскую функцию расстояния или взвесить ваши размеры по оценке эксперта, но это приведет к большому количеству настраиваемых параметров в зависимости от размерности ваших данных. В этом случае нормализация - более легкий путь (хотя и не обязательно идеальный), потому что вы можете, по крайней мере, начать.

Наконец, для SVM еще одна вещь, которую вы можете сделать, это придумать функцию подобия, а не функцию расстояния, и подключить ее как ядро ​​(технически эта функция должна генерировать положительно определенные матрицы). Эта функция может быть построена так, как вам нравится, и может учитывать несоответствие в диапазонах функций.

С другой стороны, для случайных лесов, поскольку один объект никогда не сравнивается по величине с другими объектами, диапазоны не имеют значения. Это только диапазон одной функции, которая разделена на каждом этапе.


12

Случайный лес инвариантен к монотонным преобразованиям отдельных признаков. Переводы или масштабирование по объектам ничего не изменят для Случайного леса. SVM, вероятно, будет лучше, если ваши функции будут иметь примерно одинаковую величину, если только вы не знаете, что некоторые функции намного важнее других, и в этом случае вполне нормально, чтобы они имели большую величину.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.