Вопросы с тегом «xgboost»

Популярный алгоритм повышения и программная библиотека (расшифровывается как «экстремальное повышение градиента»). Boosting объединяет модели со слабым прогнозированием в модель с сильным прогнозированием.

4
Как настроить гиперпараметры деревьев xgboost?
У меня есть несбалансированные данные класса, и я хочу настроить гиперпараметры усиленного тресса с помощью xgboost. Вопросов Есть ли эквивалент для gridsearchcv или randomsearchcv для xgboost? Если нет, то каков рекомендуемый подход для настройки параметров xgboost?

1
Математические различия между GBM, XGBoost, LightGBM, CatBoost?
Существует несколько реализаций модели семейства GBDT, таких как: GBM XGBoost LightGBM Catboost. Каковы математические различия между этими различными реализациями? Catboost, кажется, превосходит другие реализации, даже используя только параметры по умолчанию в соответствии с этим тестом , но все еще очень медленный. Я предполагаю, что catboost не использует dummified переменных, поэтому …
33 boosting  xgboost 

1
Приближение функции потерь XGBoost с расширением Тейлора
В качестве примера возьмем целевую функцию модели XGBoost на -й итерации:ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) где - функция потерь, - выходной файл ', а - регуляризация. Одним из (многих) ключевых шагов для быстрого расчета является приближение:ℓℓ\ellftftf_ttttΩΩ\Omega L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), где и - первая и вторая производные функции потерь.gigig_ihihih_i То, что я прошу, это убедительные …

4
Как правильно использовать scale_pos_weight в xgboost для несбалансированных наборов данных?
У меня очень несбалансированный набор данных. Я пытаюсь следовать советам по настройке и использовать, scale_pos_weightно не знаю, как мне его настроить. Я вижу, что RegLossObj.GetGradientделает: if (info.labels[i] == 1.0f) w *= param_.scale_pos_weight таким образом, градиент положительного образца будет более влиятельным. Однако, согласно статье xgboost , статистика градиента всегда используется локально …

1
Объяснение min_child_weight в алгоритме xgboost
Определение из min_child_weight параметра в xgboost задается как: минимальная сумма веса экземпляра (гессиана), необходимая ребенку. Если в результате шага разбиения дерева получится листовой узел с суммой веса экземпляра меньше, чем min_child_weight, то процесс сборки прекратит дальнейшее разбиение. В режиме линейной регрессии это просто соответствует минимальному количеству экземпляров, которое должно быть …

3
XGBoost и Python Sklearn повышают градиент деревьев
Я пытаюсь понять, как работает XGBoost. Я уже понимаю, как деревья с градиентным ускорением работают на Python sklearn. Что мне не ясно, так это то, работает ли XGBoost таким же образом, но быстрее, или если между ним и реализацией python есть фундаментальные различия. Когда я читаю эту статью http://learningsys.org/papers/LearningSys_2015_paper_32.pdf Мне …

3
Какие алгоритмы нуждаются в масштабировании функций, кроме SVM?
Я работаю со многими алгоритмами: RandomForest, DecisionTrees, NaiveBayes, SVM (kernel = linear и rbf), KNN, LDA и XGBoost. Все они были довольно быстрыми, кроме SVM. Именно тогда я узнал, что для ускорения работы требуется масштабирование функций. Тогда я начал задаваться вопросом, должен ли я сделать то же самое для других …

1
Повышение И Упаковка Деревьев (XGBoost, LightGBM)
Есть много постов в блогах, видео на YouTube и т. Д. Об идеях создания мешков или повышения деревьев. Мое общее понимание таково, что псевдокод для каждого из них: Bagging: Возьмите N случайных выборок x% выборок и y% функций Установите вашу модель (например, дерево решений) на каждый из N Прогнозировать с …

4
Стоит ли беспокоиться о мультиколлинеарности при использовании нелинейных моделей?
Скажем, у нас есть проблема бинарной классификации с в основном категориальными особенностями. Мы используем некоторую нелинейную модель (например, XGBoost или Случайные Леса), чтобы изучить ее. Стоит ли еще беспокоиться о мультиколлинеарности? Почему? Если ответ на вышеприведенный ответ верен, как с этим бороться, учитывая, что используются нелинейные модели этих типов?

1
XGBoost может обрабатывать недостающие данные на этапе прогнозирования
Недавно я рассмотрел алгоритм XGBoost и заметил, что этот алгоритм может обрабатывать недостающие данные (не требуя вменения) на этапе обучения. Мне было интересно, может ли XGboost обрабатывать недостающие данные (не требуя вменения), когда он используется для прогнозирования новых наблюдений или необходимо вменять недостающие данные. Заранее спасибо.

1
Как линейный базовый ученик работает в повышении? И как это работает в библиотеке xgboost?
Я знаю, как реализовать линейную целевую функцию и линейные усиления в XGBoost. Мой конкретный вопрос: когда алгоритм соответствует остаточному (или отрицательному градиенту), использует ли он один элемент на каждом шаге (т.е. одномерную модель) или все признаки (многомерная модель)? Будем благодарны за любые ссылки на документацию о линейных бустах в XGBoost. …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.