У меня есть практический вопрос о проектировании функций ... скажем, я хочу прогнозировать цены на жилье с помощью логистической регрессии и использовал множество функций, включая почтовый индекс. Затем, проверив важность функции, я понял, что zip - довольно хорошая функция, поэтому я решил добавить еще несколько функций на основе zip - например, я иду в бюро переписей и получаю средний доход, население, количество школ и число больниц каждого почтового индекса. Благодаря этим четырем новым функциям я считаю, что производительность модели теперь лучше. Поэтому я добавляю еще больше функций, связанных с почтовыми индексами ... И этот цикл продолжается и продолжается. В конце концов, в модели будут доминировать эти функции, связанные с почтовым индексом, верно?
Мои вопросы:
- Имеет ли смысл делать это в первую очередь?
- Если да, как я узнаю, когда подходящее время, чтобы остановить этот цикл?
- Если нет, то почему нет?