Статистика и большие данные xgboost

4

Как настроить гиперпараметры деревьев xgboost?

У меня есть несбалансированные данные класса, и я хочу настроить гиперпараметры усиленного тресса с помощью xgboost. Вопросов Есть ли эквивалент для gridsearchcv или randomsearchcv для xgboost? Если нет, то каков рекомендуемый подход для настройки параметров xgboost?

69 machine-learning cross-validation xgboost boosting

1

Математические различия между GBM, XGBoost, LightGBM, CatBoost?

Существует несколько реализаций модели семейства GBDT, таких как: GBM XGBoost LightGBM Catboost. Каковы математические различия между этими различными реализациями? Catboost, кажется, превосходит другие реализации, даже используя только параметры по умолчанию в соответствии с этим тестом , но все еще очень медленный. Я предполагаю, что catboost не использует dummified переменных, поэтому …

33 boosting xgboost

1

Приближение функции потерь XGBoost с расширением Тейлора

В качестве примера возьмем целевую функцию модели XGBoost на -й итерации:ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) где - функция потерь, - выходной файл ', а - регуляризация. Одним из (многих) ключевых шагов для быстрого расчета является приближение:ℓℓ\ellftftf_ttttΩΩ\Omega L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), где и - первая и вторая производные функции потерь.gigig_ihihih_i То, что я прошу, это убедительные …

28 optimization loss-functions boosting xgboost taylor-series

4

Как правильно использовать scale_pos_weight в xgboost для несбалансированных наборов данных?

У меня очень несбалансированный набор данных. Я пытаюсь следовать советам по настройке и использовать, scale_pos_weightно не знаю, как мне его настроить. Я вижу, что RegLossObj.GetGradientделает: if (info.labels[i] == 1.0f) w *= param_.scale_pos_weight таким образом, градиент положительного образца будет более влиятельным. Однако, согласно статье xgboost , статистика градиента всегда используется локально …

26 unbalanced-classes xgboost

1

Объяснение min_child_weight в алгоритме xgboost

Определение из min_child_weight параметра в xgboost задается как: минимальная сумма веса экземпляра (гессиана), необходимая ребенку. Если в результате шага разбиения дерева получится листовой узел с суммой веса экземпляра меньше, чем min_child_weight, то процесс сборки прекратит дальнейшее разбиение. В режиме линейной регрессии это просто соответствует минимальному количеству экземпляров, которое должно быть …

23 machine-learning xgboost hessian

3

XGBoost и Python Sklearn повышают градиент деревьев

Я пытаюсь понять, как работает XGBoost. Я уже понимаю, как деревья с градиентным ускорением работают на Python sklearn. Что мне не ясно, так это то, работает ли XGBoost таким же образом, но быстрее, или если между ним и реализацией python есть фундаментальные различия. Когда я читаю эту статью http://learningsys.org/papers/LearningSys_2015_paper_32.pdf Мне …

20 scikit-learn boosting gbm xgboost

3

Какие алгоритмы нуждаются в масштабировании функций, кроме SVM?

Я работаю со многими алгоритмами: RandomForest, DecisionTrees, NaiveBayes, SVM (kernel = linear и rbf), KNN, LDA и XGBoost. Все они были довольно быстрыми, кроме SVM. Именно тогда я узнал, что для ускорения работы требуется масштабирование функций. Тогда я начал задаваться вопросом, должен ли я сделать то же самое для других …

17 machine-learning svm random-forest naive-bayes xgboost

1

Повышение И Упаковка Деревьев (XGBoost, LightGBM)

Есть много постов в блогах, видео на YouTube и т. Д. Об идеях создания мешков или повышения деревьев. Мое общее понимание таково, что псевдокод для каждого из них: Bagging: Возьмите N случайных выборок x% выборок и y% функций Установите вашу модель (например, дерево решений) на каждый из N Прогнозировать с …

17 cart boosting xgboost bagging

4

Стоит ли беспокоиться о мультиколлинеарности при использовании нелинейных моделей?

Скажем, у нас есть проблема бинарной классификации с в основном категориальными особенностями. Мы используем некоторую нелинейную модель (например, XGBoost или Случайные Леса), чтобы изучить ее. Стоит ли еще беспокоиться о мультиколлинеарности? Почему? Если ответ на вышеприведенный ответ верен, как с этим бороться, учитывая, что используются нелинейные модели этих типов?

13 classification random-forest multicollinearity xgboost

1

XGBoost может обрабатывать недостающие данные на этапе прогнозирования

Недавно я рассмотрел алгоритм XGBoost и заметил, что этот алгоритм может обрабатывать недостающие данные (не требуя вменения) на этапе обучения. Мне было интересно, может ли XGboost обрабатывать недостающие данные (не требуя вменения), когда он используется для прогнозирования новых наблюдений или необходимо вменять недостающие данные. Заранее спасибо.

12 machine-learning missing-data data-imputation xgboost

1

Как линейный базовый ученик работает в повышении? И как это работает в библиотеке xgboost?

Я знаю, как реализовать линейную целевую функцию и линейные усиления в XGBoost. Мой конкретный вопрос: когда алгоритм соответствует остаточному (или отрицательному градиенту), использует ли он один элемент на каждом шаге (т.е. одномерную модель) или все признаки (многомерная модель)? Будем благодарны за любые ссылки на документацию о линейных бустах в XGBoost. …

9 regression machine-learning boosting xgboost

Вопросы с тегом «xgboost»