Когда алгоритмы ML, например, Vowpal Wabbit или некоторые из машин факторизации, побеждающих в конкурсе кликов ( Kaggle ), упоминают, что функции «хэшированы», что это на самом деле означает для модели? Допустим, есть переменная, которая представляет идентификатор интернет-добавления, который принимает значения, такие как «236BG231». Тогда я понимаю, что эта функция хэшируется в случайное целое число. Но мой вопрос:
- Используется ли в модели целое число в качестве целого (числового) ИЛИ
- действительно ли хэшированное значение все еще обрабатывается как категориальная переменная с горячим кодированием? Таким образом, хитрость заключается в том, чтобы как-то сэкономить пространство с большими данными?