Вопросы с тегом «xgboost»

По вопросам, связанным с алгоритмом eXtreme Gradient Boosting.

5
GBM против XGBOOST? Ключевые отличия?
Я пытаюсь понять ключевые различия между GBM и XGBOOST. Я пытался найти его в Google, но не смог найти хороших ответов, объясняющих различия между двумя алгоритмами и почему xgboost почти всегда работает лучше, чем GBM. Что делает XGBOOST таким быстрым?

2
Как интерпретировать вывод значения XGBoost?
Я запустил модель xgboost. Я точно не знаю, как интерпретировать вывод xgb.importance. В чем смысл усиления, покрытия и частоты и как мы их интерпретируем? Кроме того, что означает Split, RealCover и RealCover%? У меня есть некоторые дополнительные параметры здесь Есть ли другие параметры, которые могут рассказать мне больше о важности …

1
Почему xgboost намного быстрее, чем sklearn GradientBoostingClassifier?
Я пытаюсь обучить модели повышения градиента более чем на 50 тыс. Примеров с 100 числовыми функциями. XGBClassifierобрабатывает 500 деревьев в течение 43 секунд на моей машине, в то время как GradientBoostingClassifierобрабатывает только 10 деревьев (!) за 1 минуту и ​​2 секунды :( Я не стал пытаться вырастить 500 деревьев, так …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

3
Гипертюнинг параметров XGBoost
XGBoost проделал большую работу, когда речь идет о работе как с категориальными, так и с непрерывно зависимыми переменными. Но как выбрать оптимизированные параметры для проблемы XGBoost? Вот как я применил параметры для недавней проблемы Kaggle: param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, # 0.06, #0.01, …
27 r  python  xgboost 

2
LightGBM против XGBoost
Я пытаюсь понять, что лучше (точнее, особенно в задачах классификации) Я искал статьи, сравнивающие LightGBM и XGBoost, но нашел только две: https://medium.com/implodinggradients/benchmarking-lightgbm-how-fast-is-lightgbm-vs-xgboost-15d224568031 - что касается только скорости, но не точности. https://github.com/Microsoft/LightGBM/wiki/Experiment - от авторов LightGBM, и неудивительно, что LightGBM выигрывает там. В моих тестах я получаю практически одинаковый AUC для …
25 xgboost 

3
Зачем нам XGBoost и Random Forest?
Я не был ясен в паре концепций: XGBoost превращает слабых учеников в сильных учеников. В чем преимущество этого? Объединить много слабых учеников вместо одного дерева? Random Forest использует различные образцы из дерева для создания дерева. В чем преимущество этого метода вместо использования единственного дерева?

4
XGBoost сам обрабатывает мультиколлинеарность?
В настоящее время я использую XGBoost для набора данных с 21 функцией (выбранной из списка из 150 функций), а затем горячо закодировал их, чтобы получить ~ 98 функций. Некоторые из этих 98 функций несколько избыточны, например: переменная (функция) также отображается как и .AAAВAВA\frac{B}{A}СAСA\frac{C}{A} Мои вопросы: Как ( если? ) Деревья …


4
Несбалансированные мультиклассовые данные с XGBoost
У меня есть 3 класса с этим распределением: Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 И я использую xgboostдля классификации. Я знаю, что есть параметр с именем scale_pos_weight. Но как это обрабатывается для случая «мультикласса», и как я могу правильно установить его?

1
Деревья решений: листовое (лучшее-первое) и горизонтальное дерево
Выпуск 1: Меня смущает описание LightGBM относительно способа расширения дерева. Они заявляют: Большинство алгоритмов обучения дерева решений растут по дереву по уровню (глубине), как показано на следующем рисунке: Вопросы 1 : Какие «большинство» алгоритмов реализованы таким образом? Насколько я знаю, C4.5 и CART используют DFS. XGBoost использует BFS. Какие другие …

2
Как подходят попарно ранжирования моделей в xgBoost?
Насколько я знаю, обучать обучение моделей ранга, вам нужно иметь три вещи в наборе данных: ярлык или релевантность идентификатор группы или запроса характерный вектор Например, набор данных Microsoft Learning to Rank использует этот формат (метка, идентификатор группы и функции). 1 qid:10 1:0.031310 2:0.666667 ... 0 qid:10 1:0.078682 2:0.166667 ... Я …
14 search  ranking  xgboost  gbm 

3
Pandas Dataframe для DMatrix
Я пытаюсь запустить xgboost в scikit learn. И я использую только Pandas для загрузки данных в dataframe. Как я должен использовать панд DF с xgboost. Меня смущает процедура DMatrix, необходимая для запуска алгоритма xgboost.

1
XGBRegressor против xgboost.train огромная разница в скорости?
Если я тренирую свою модель, используя следующий код: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) это заканчивается примерно через 1 минуту. Если я тренирую свою модель, используя метод …

1
Важность признаков с категоричными признаками высокой кардинальности для регрессии (числовая переменная отклонения)
Я пытался использовать значения функций из случайных лесов, чтобы выполнить эмпирический выбор объектов для задачи регрессии, в которой все объекты являются категориальными и многие из них имеют много уровней (порядка 100-1000). Учитывая, что горячее кодирование создает фиктивную переменную для каждого уровня, значения функций относятся к каждому уровню, а не к …

3
Нужна помощь в понимании приблизительного предложения точек разделения xgboost
фон: в xgboost в итерационным подгоняет дерево ф т по всему п примерам , которые сводят к минимуму следующей цели:tttftftf_tnnn ∑i=1n[gift(xi)+12hif2t(xi)]∑i=1n[gift(xi)+12hift2(xi)]\sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)] где сначала порядок и производные второго порядка над нашей предыдущей лучшей оценки у (от итерации т - 1 ):gi,higi,hig_i, h_iy^y^\hat{y}t−1t−1t-1 gi=dy^l(yi,y^)gi=dy^l(yi,y^)g_i=d_{\hat{y}}l(y_i, \hat{y}) hi=d2y^l(yi,y^)hi=dy^2l(yi,y^)h_i=d^2_{\hat{y}}l(y_i, \hat{y}) и наша функция …
12 xgboost  gbm 

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.