Я думаю, что ответ здесь такой же, как и везде в науке о данных: это зависит от данных :-)
Может случиться так, что один метод превосходит другой (здесь https://arimo.com/data-science/2016/bayesian-optimization-hyperparameter-tuning/ люди сравнивают байесовскую оптимизацию гиперпараметров и достигают лучшего результата в борьбе с преступностью в Сан-Франциско, чем со случайным поиском), однако я сомневаюсь, что есть общее правило для этого. Вы можете увидеть хороший gif здесь ( http://blog.revolutionanalytics.com/2016/06/bayesian-optimization-of-machine-learning-models.html ), где люди показывают «путь», по которому байесовская оптимизация ведет в ландшафте гиперпараметров, в частности, не похоже, что он превосходит случайный поиск вообще ...
Я думаю, что причина, по которой люди склонны использовать байесовскую оптимизацию гиперпараметров, заключается в том, что для достижения сопоставимого результата требуется просто меньше тренировочных шагов по сравнению со случайным поиском с достаточно большим количеством экспериментов.
Подводя итог в одном предложении:
* Если время тренировки критично, используйте оптимизацию байесовских гиперпараметров, а если время не является проблемой, выберите один из двух вариантов ... *
Обычно мне лень внедрять байесовский материал с помощью гауссовских процессов, если я могу достичь того же результата при случайном поиске ... Я просто обучаю ансамбли Gradient Bossting на «нескольких» данных, поэтому для меня время не проблема ...