Прочитав отличное статистическое моделирование: две культуры (Breiman 2001) , мы можем использовать все различия между традиционными статистическими моделями (например, линейной регрессией) и алгоритмами машинного обучения (например, Bagging, Random Forest, Boosted trees ...).
Брейман критикует модели данных (параметрические), потому что они основаны на предположении, что наблюдения генерируются известной формальной моделью, предписанной статистиком, которая может плохо имитировать Природу. С другой стороны, алгоритмы ML не предполагают какой-либо формальной модели и напрямую изучают связи между входными и выходными переменными из данных.
Я понял, что Bagging / RF и Boosting, также являются своего рода параметрическими: например, ntree , mtry в RF, скорость обучения , доля пакетов , сложность дерева в деревьях со случайным градиентом Boostted - все параметры настройки . Мы также являемся своего рода оценкой этих параметров по данным, так как мы используем данные, чтобы найти оптимальные значения этих параметров.
Так в чем же разница? Являются ли RF и Boosted Trees параметрическими моделями?