Если один горячий вектор масштабируется с числовыми атрибутами


20

В случае наличия комбинации категориальных и числовых атрибутов я обычно конвертирую категориальные атрибуты в один горячий вектор. Мой вопрос заключается в том, чтобы оставить эти векторы как есть и масштабировать числовые атрибуты посредством стандартизации / нормализации, или мне следует масштабировать один горячий вектор вместе с числовыми атрибутами?

Ответы:


11

После преобразования в числовую форму модели не реагируют по-разному на столбцы с горячим кодированием, чем на любые другие числовые данные. Таким образом, существует явный прецедент для нормализации значений {0,1}, если вы делаете это по любой причине для подготовки других столбцов.

Эффект от этого будет зависеть от класса модели и типа применяемой вами нормализации, но я заметил некоторые (небольшие) улучшения при масштабировании до 0, std 1 для категориальных данных с горячим кодированием при обучении нейронных сетей.

Это может иметь значение и для классов моделей, основанных на метриках расстояния.

К сожалению, как и большинство подобных вариантов, часто приходится пробовать оба подхода и выбирать тот, который имеет лучший показатель.


1
Формулировка была немного неясной. Вы говорите, что нормализуете столбцы с горячим кодированием, только если вы нормализовали столбцы, не относящиеся к типу ohe?
Info5ek

@ Info5ek: я говорю, что, возможно, было бы лучше нормализовать столбцы с горячим кодированием, и если вы уже делаете это для других столбцов, то вы также можете попробовать. Здесь нет фиксированных правил, слишком многое зависит от проблемы.
Нил Слэйтер
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.