Вопросы с тегом «boosting»

Семейство алгоритмов, объединяющее модели со слабым прогнозом в модель с сильным прогнозом. Наиболее распространенный подход называется повышением градиента, а наиболее часто используемые слабые модели - деревья классификации / регрессии.


2
Градиентное дерево против случайного леса
Повышение градиентного дерева, предложенное Фридманом, использует деревья решений в качестве базовых учеников. Мне интересно, должны ли мы сделать базовое дерево решений настолько сложным, насколько это возможно (полностью выросло) или проще? Есть ли объяснение выбора? Случайный лес - это еще один метод ансамбля, использующий деревья решений в качестве базовых учащихся. Исходя …

4
Как настроить гиперпараметры деревьев xgboost?
У меня есть несбалансированные данные класса, и я хочу настроить гиперпараметры усиленного тресса с помощью xgboost. Вопросов Есть ли эквивалент для gridsearchcv или randomsearchcv для xgboost? Если нет, то каков рекомендуемый подход для настройки параметров xgboost?

5
Случайный лес - это алгоритм повышения?
Краткое определение повышения : Может ли группа слабых учеников создать одного сильного ученика? Слабый ученик определяется как классификатор, который лишь незначительно коррелирует с истинной классификацией (он может маркировать примеры лучше, чем случайные догадки). Краткое определение случайного леса : Случайные леса произрастает много деревьев классификации. Чтобы классифицировать новый объект из входного …

2
Интуитивно понятные объяснения различий между Gradient Boosting Trees (GBM) и Adaboost
Я пытаюсь понять разницу между GBM и Adaboost. Вот что я понял до сих пор: Существуют оба алгоритма повышения, которые учатся на ошибках предыдущей модели и, наконец, составляют взвешенную сумму моделей. GBM и Adaboost очень похожи, за исключением функций потери. Но мне все еще трудно понять идею различий между ними. …
48 boosting  gbm  adaboost 

2
Повышение градиента для линейной регрессии - почему это не работает?
При изучении Gradient Boosting я не слышал о каких-либо ограничениях в отношении свойств «слабого классификатора», который метод использует для построения и ансамбля модели. Однако я не мог представить себе применение ГБ, которое использует линейную регрессию, и на самом деле, когда я выполнил некоторые тесты - это не работает. Я тестировал …

2
Это современная методология регрессии?
Я давно слежу за соревнованиями в Kaggle и осознаю, что многие выигрышные стратегии предполагают использование хотя бы одного из «больших троек»: мешки, бустинг и стекирование. Для регрессий вместо того, чтобы концентрироваться на построении одной наилучшей из возможных моделей регрессии, кажется, что создание моделей множественной регрессии, таких как (обобщенная) линейная регрессия, …

1
Математические различия между GBM, XGBoost, LightGBM, CatBoost?
Существует несколько реализаций модели семейства GBDT, таких как: GBM XGBoost LightGBM Catboost. Каковы математические различия между этими различными реализациями? Catboost, кажется, превосходит другие реализации, даже используя только параметры по умолчанию в соответствии с этим тестом , но все еще очень медленный. Я предполагаю, что catboost не использует dummified переменных, поэтому …
33 boosting  xgboost 

1
Относительная важность переменной для повышения
Я ищу объяснение того, как относительная важность переменной вычисляется в деревьях с градиентным усилением, которое не является слишком общим / упрощенным, например: Измерения основаны на количестве раз, которое переменная была выбрана для расщепления, взвешенной по квадрату улучшения модели в результате каждого расщепления и усредненном по всем деревьям . [ Элит …

1
Каковы некоторые полезные рекомендации для параметров GBM?
Каковы некоторые полезные рекомендации для тестирования параметров (например, глубина взаимодействия, minchild, частота выборки и т. Д.) С использованием GBM? Допустим, у меня 70-100 функций, население 200 000, и я собираюсь проверить глубину взаимодействия 3 и 4. Очевидно, мне нужно провести некоторое тестирование, чтобы увидеть, какая комбинация параметров лучше всего подходит …

5
Что означает глубина взаимодействия в GBM?
У меня был вопрос о параметре глубины взаимодействия в gbm в R. Это может быть вопрос noob, за который я прошу прощения, но как параметр, который, я считаю, обозначает количество терминальных узлов в дереве, в основном указывает X-way взаимодействие между предикторами? Просто пытаюсь понять, как это работает. Кроме того, я …

1
Приближение функции потерь XGBoost с расширением Тейлора
В качестве примера возьмем целевую функцию модели XGBoost на -й итерации:ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) где - функция потерь, - выходной файл ', а - регуляризация. Одним из (многих) ключевых шагов для быстрого расчета является приближение:ℓℓ\ellftftf_ttttΩΩ\Omega L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), где и - первая и вторая производные функции потерь.gigig_ihihih_i То, что я прошу, это убедительные …

3
В повышении, почему ученики «слабые»?
Смотрите также похожий вопрос на stats.SE . В таких алгоритмах повышения , как AdaBoost и LPBoost, известно, что «слабые» ученики, которых нужно объединить, должны работать лучше, чем шанс быть полезными, из Википедии: Используемые им классификаторы могут быть слабыми (т. Е. Отображать значительную частоту ошибок), но до тех пор, пока их …


2
О «силе» слабых учеников
У меня есть несколько тесно связанных вопросов относительно слабых учеников в обучении ансамблю (например, повышение). Это может показаться глупым, но каковы преимущества использования слабых по сравнению с сильными учениками? (например, почему бы не повысить с "сильными" методами обучения?) Есть ли какая-то «оптимальная» сила для слабых учеников (например, при сохранении всех …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.