У меня есть необработанные данные, которые имеют около 20 столбцов (20 функций). Десять из них являются непрерывными данными, а 10 - категориальными. Некоторые из категориальных данных могут иметь около 50 различных значений (штаты США). После предварительной обработки данных 10 непрерывных столбцов превращаются в 10 подготовленных столбцов, а 10 категориальных значений становятся похожими на 200 однозначных закодированных переменных. Я обеспокоен тем, что, если я добавлю все эти 200 + 10 = 210 элементов в нейронную сеть, тогда элементы 200-one-hot (10 категориальных столбцов) будут полностью доминировать над 10-непрерывными объектами.
Возможно, один из методов - «сгруппировать» столбцы вместе или что-то в этом роде. Это действительная проблема, и есть ли какой-либо стандартный способ решения этой проблемы?
(Я использую Keras, хотя я не думаю, что это имеет большое значение.)