Я строю модель, и я думаю, что географическое местоположение, вероятно, будет очень хорошим для предсказания моей целевой переменной. У меня есть почтовый индекс каждого из моих пользователей. Я не совсем уверен в том, как лучше всего включить в мою модель почтовый индекс в качестве предиктора. Хотя почтовый индекс является числом, это ничего не значит, если число увеличивается или уменьшается. Я мог бы преобразовать в двоичную форму все 30 000 почтовых индексов, а затем включить их в виде функций или новых столбцов (например, {user_1: {61822: 1, 62118: 0, 62444: 0 и т. Д.}}}. Однако, похоже, что это добавит тонну особенностей моей модели.
Есть мысли о том, как лучше справиться с этой ситуацией?