Лично мне нравится делить выбор объектов на две части:
- неконтролируемый выбор функций
- контролируемый выбор функций
Необслуживаемый выбор функций - это такие вещи, как кластеризация или PCA, где вы выбираете наименее избыточный диапазон функций (или создаете функции с небольшой избыточностью). Выбор контролируемых функций - это такие вещи, как Lasso, где вы выбираете функции с наибольшей предсказательной силой.
Я лично обычно предпочитаю то, что я называю контролируемым выбором функций. Итак, при использовании линейной регрессии я бы выбирал объекты на основе Лассо. Подобные методы существуют, чтобы вызвать разреженность в нейронных сетях.
Но на самом деле, я не понимаю, как бы я поступил так в методе, использующем ядра, поэтому вам, вероятно, лучше использовать то, что я называю неконтролируемым выбором функций.
РЕДАКТИРОВАТЬ: вы также спрашивали о регуляризации. Я считаю, что регуляризация помогает в основном потому, что мы работаем с конечными выборками, и поэтому распределение обучения и тестирования всегда будет несколько отличаться, и вы хотите, чтобы ваша модель не выходила за рамки. Я не уверен, что это устраняет необходимость избегать выбора функций (если у вас их действительно слишком много). Я думаю, что выбор функций (или создание меньшего их подмножества) помогает сделать функции, которые у вас есть, более устойчивыми и избегать модели, чтобы учиться на ложных корреляциях. Таким образом, регуляризация помогает, но не уверена, что это полная альтернатива. Но я недостаточно тщательно об этом думал.