Этот вопрос может быть слишком открытым, чтобы получить окончательный ответ, но, надеюсь, нет.
Алгоритмы машинного обучения, такие как SVM, GBM, Random Forest и т. Д., Как правило, имеют некоторые свободные параметры, которые, помимо некоторых правил большого пальца, необходимо настраивать для каждого набора данных. Обычно это делается с помощью некоторой техники повторной выборки (начальной загрузки, CV и т. Д.), Чтобы соответствовать набору параметров, дающих наилучшую ошибку обобщения.
Мой вопрос, ты можешь зайти слишком далеко? Люди говорят о поиске по сетке и так далее, но почему бы просто не рассматривать это как проблему оптимизации и детализировать до максимально возможного набора параметров? Я спросил о механике этого вопроса в этом вопросе, но он не получил большого внимания. Может быть, вопрос был задан плохо, но, возможно, сам вопрос представляет собой плохой подход, который люди обычно не делают?
Что меня беспокоит, так это отсутствие регуляризации. Путем повторной выборки я могу обнаружить, что лучшее количество деревьев, которые нужно вырастить в GBM для этого набора данных, - это 647 с глубиной взаимодействия 4, но насколько я могу быть уверен, что это будет верно для новых данных (при условии, что новая популяция идентично обучающему набору)? Без разумного значения «сокращения» до (или, если хотите, без информативной предварительной информации) повторной выборки кажется лучшим, что мы можем сделать. Я просто не слышу никаких разговоров об этом, поэтому меня удивляет, что я что-то упускаю.
Очевидно, что выполнение большого количества итераций приводит к большим вычислительным затратам, чтобы выжать из модели каждый последний бит предсказательной силы, поэтому ясно, что это то, что вы бы сделали, если бы у вас было время / решимость выполнить оптимизацию и каждый бит улучшение производительности является ценным.