Я не знаю, является ли это общей / лучшей практикой, но это другая точка зрения по этому вопросу.
Если у вас есть, скажем, дата, вы можете рассматривать каждое поле как «переменную категории» вместо «непрерывной переменной». День будет иметь значение в наборе {1, 2 ..., 31}, месяц будет иметь значение в {1, ..., 12}, а для года вы выбираете минимальное и максимальное значения. и построить набор.
Затем, поскольку конкретные числовые значения дней, месяцев и лет могут оказаться бесполезными для поиска трендов в данных, используйте двоичное представление для кодирования числовых значений, каждое из которых является функцией. Например, месяц 5 будет 0 0 0 0 1 0 0 0 0 0 0 0
(11 0 - это 1 в 5-й позиции, каждый бит является признаком).
Таким образом, имея, например, 10 лет в «наборе года», дата будет преобразована в вектор из 43 признаков (= 31 + 12 + 10). Используя «разреженные векторы», количество функций не должно быть проблемой.
Нечто подобное можно сделать для временных данных, дня недели, дня месяца ...
Все зависит от того, на какой вопрос ответит ваша модель машинного обучения.