Вопросы с тегом «boosting»

Семейство алгоритмов, объединяющее модели со слабым прогнозом в модель с сильным прогнозом. Наиболее распространенный подход называется повышением градиента, а наиболее часто используемые слабые модели - деревья классификации / регрессии.

4
Точность градиентной машины уменьшается с увеличением числа итераций
Я экспериментирую с алгоритмом машины повышения градиента через caretпакет в R. Используя небольшой набор данных для поступления в колледж, я запустил следующий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
Какие алгоритмы упаковки являются достойными преемниками Random Forest?
Я бы сказал, что для повышения алгоритмов они развивались довольно хорошо. В начале 1995 года был представлен AdaBoost, затем через некоторое время это была Gradient Boosting Machine (GBM). Недавно, около 2015 года, был представлен XGBoost, который точен, справляется с переоснащением и стал победителем нескольких соревнований Kaggle. В 2017 году Microsoft …

1
Когда можно использовать AdaBoost?
Как я слышал о классификаторе AdaBoost, который неоднократно упоминался на работе, я хотел лучше понять, как он работает и когда его можно использовать. Я прочитал несколько статей и учебных пособий, которые я нашел в Google, но есть некоторые аспекты классификатора, которые я до сих пор не могу понять: Большинство уроков, …


3
R: Что я вижу на графиках частичной зависимости gbm и RandomForest?
На самом деле, я думал, что понял, что можно показать на графике частичной зависимости, но на очень простом гипотетическом примере я немного озадачился. В следующем фрагменте кода я генерирую три независимые переменные ( a , b , c ) и одну зависимую переменную ( y ), где c показывает тесную …

1
Подходит ли повышение градиента для данных с низкой частотой событий, таких как 1%?
Я пытаюсь повысить градиент для набора данных с частотой событий около 1%, используя Enterprise miner, но он не дает никакого вывода. Мой вопрос таков: поскольку это подход, основанный на дереве решений, правильно ли использовать градиентное усиление при таком низком событии?

3
Случайный лес и усиление являются параметрическими или непараметрическими?
Прочитав отличное статистическое моделирование: две культуры (Breiman 2001) , мы можем использовать все различия между традиционными статистическими моделями (например, линейной регрессией) и алгоритмами машинного обучения (например, Bagging, Random Forest, Boosted trees ...). Брейман критикует модели данных (параметрические), потому что они основаны на предположении, что наблюдения генерируются известной формальной моделью, предписанной …

1
Почему бы не всегда использовать ансамблевое обучение?
Мне кажется, что ансамблевое обучение всегда даст лучшую прогностическую эффективность, чем с одной гипотезой обучения. Итак, почему бы нам не использовать их все время? Я думаю, возможно, из-за вычислительных ограничений? (даже тогда мы используем слабые предикторы, поэтому я не знаю).

9
Улучшенные деревья решений в python? [закрыто]
Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос так, чтобы он был по теме перекрестной проверки. Закрыто 5 месяцев назад . Есть ли хорошая библиотека Python для обучения расширенных деревьев решений?
13 python  cart  boosting 

2
Лучшие практики для кодирования категориальных функций для деревьев решений?
При кодировании категориальных признаков для линейной регрессии существует правило: количество манекенов должно быть на единицу меньше общего количества уровней (чтобы избежать коллинеарности). Существует ли подобное правило для деревьев решений (в мешках, усиленных)? Я спрашиваю об этом, потому что стандартная практика в Python, по-видимому, заключается в расширении nуровней в nманекены (sklearns …

5
Является ли автоматическое машинное обучение мечтой?
Когда я открываю машинное обучение, я вижу разные интересные методы, такие как: автоматически настраивать алгоритмы с помощью таких методов, как grid search, получить более точные результаты за счет комбинации различных алгоритмов одного и того же «типа», это boosting, получить более точные результаты за счет сочетания различных алгоритмов (но не тот …

3
почему метод повышения чувствительности к выбросам
Я нашел много статей, в которых говорится, что методы повышения чувствительны к выбросам, но нет статей, объясняющих почему. По моему опыту, выбросы плохи для любого алгоритма машинного обучения, но почему методы повышения выделяются как особенно чувствительные? Как бы оценили следующие алгоритмы с точки зрения чувствительности к выбросам: буст-дерево, случайный лес, …

1
Градиент для функции логистической потери
Я хотел бы задать вопрос, связанный с этим . Я нашел пример написания пользовательской функции потерь для xgboost здесь : loglossobj <- function(preds, dtrain) { # dtrain is the internal format of the training data # We extract the labels from the training data labels <- getinfo(dtrain, "label") # We …

2
Использование Adaboost с SVM для классификации
Я знаю, что Adaboost пытается создать сильный классификатор, используя линейную комбинацию набора слабых классификаторов. Тем не менее, я читал некоторые статьи, в которых говорится, что Adaboost и SVM работают в гармонии (хотя SVM является сильным классификатором) в определенных условиях и случаях . Я не могу понять с точки зрения архитектуры …

1
Функция потери биномиального отклонения Scikit
Это функция биномиального отклонения Scikit GradientBoosting, def __call__(self, y, pred, sample_weight=None): """Compute the deviance (= 2 * negative log-likelihood). """ # logaddexp(0, v) == log(1.0 + exp(v)) pred = pred.ravel() if sample_weight is None: return -2.0 * np.mean((y * pred) - np.logaddexp(0.0, pred)) else: return (-2.0 / sample_weight.sum() * np.sum(sample_weight …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.