Вопросы с тегом «random-forest»

Случайный лес - это метод машинного обучения, основанный на объединении результатов множества деревьев решений.

1
Почему результаты моего случайного леса такие переменные?
Я пытаюсь проверить способность случайного леса классифицировать выборки между 2 группами; Для классификации используются 54 образца и различное количество переменных. Мне было интересно, почему оценки «вне сумки» могут отличаться на 5% друг от друга, даже если я использую 50 000 деревьев? Может ли это помочь с начальной загрузкой?

1
Случайная лесная регрессия для прогнозирования временных рядов
Я пытаюсь использовать радиочастотную регрессию для прогнозирования производительности бумажной фабрики. У меня есть поминутные данные для входных данных (скорость и количество поступающей древесной массы и т. Д.), А также для производительности машины (произведенная бумага, мощность, потребляемая машиной), и я собираюсь сделать прогноз на 10 минут впереди на переменных производительности. У …

3
Примеры использования RBF SVM (против логистической регрессии и случайного леса)
Машины опорных векторов с ядром радиально-базовой функции - это универсальный контролируемый классификатор. Хотя я знаю теоретические основы этих SVM и их сильные стороны, я не знаю случаев, когда они являются предпочтительным методом. Итак, существует ли класс проблем, для которых SVM RBF превосходят другие методы ML? (Либо с точки зрения оценки, …

1
Требуется ли перекрестная проверка для моделирования со случайными лесами?
Насколько я видел, мнения об этом, как правило, расходятся. Лучшая практика, безусловно, диктует использование перекрестной проверки (особенно если сравнивать RF с другими алгоритмами в одном наборе данных). С другой стороны, первоначальный источник утверждает, что факт ошибки OOB, рассчитанный во время обучения модели, является достаточным показателем эффективности тестового набора. Даже Тревор …

1
Случайный лес против Adaboost
В разделе 7 статьи « Случайные леса» (Брейман, 1999) автор высказывает следующую гипотезу: «Adaboost - это случайный лес». Кто-нибудь доказал или опроверг это? Что было сделано, чтобы доказать или опровергнуть этот пост 1999 года?

1
Случайный лесной вероятностный прогноз против большинства голосов
Кажется, Scikit Learn использует вероятностный прогноз вместо большинства голосов за метод агрегации моделей без объяснения причин (1.9.2.1. Случайные леса). Есть четкое объяснение почему? Кроме того, есть ли хорошая статья или обзорная статья о различных методах агрегации моделей, которые можно использовать для рандомизации по лесам? Спасибо!


2
Как изменить порог для классификации в R randomForests?
Вся литература по моделированию распределения видов предполагает, что при прогнозировании присутствия / отсутствия вида с использованием модели, которая выводит вероятности (например, RandomForests), важен выбор пороговой вероятности, с помощью которой можно фактически классифицировать вид как присутствие или отсутствие, и следует не всегда полагаться на значение по умолчанию 0,5. Мне нужна помощь …

2
Выбор каретки для модели randomForest
У меня проблемы с пониманием того, как varImpфункция работает для модели randomForest с caretпакетом. В приведенном ниже примере функция var3 получает нулевую важность с помощью varImpфункции caret , но базовая конечная модель randomForest имеет ненулевую важность для функции var3. Почему это так? require(randomForest) require(caret) rf <- train(x, y, method = …
10 r  caret  random-forest 

1
Как мне включить инновационный выброс при наблюдении 48 в мою модель ARIMA?
Я работаю над набором данных. После использования некоторых методов идентификации моделей я разработал модель ARIMA (0,2,1). Я использовал detectIOфункцию в пакете TSAв R, чтобы обнаружить инновационный выброс (IO) на 48-м наблюдении за моим исходным набором данных. Как включить этот выброс в мою модель, чтобы я мог использовать его для целей …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

3
Пределы основанных на деревьях методов ансамбля в маленьких n, больших p проблемах?
Основанные на деревьях методы ансамбля, такие как Случайный лес и последующие производные (например, условный лес), предназначены для использования в так называемых задачах «маленький n , большой p » для определения относительной важности переменной. Действительно, похоже, что это так, но мой вопрос в том, как далеко может быть взята эта способность? …

1
randomForest и ошибка важности переменной?
Я не получаю разницу между rfobject$importanceи importance(rfobject)в столбце MeanDecreaseAccuracy. Пример: > data("iris") > fit <- randomForest(Species~., data=iris, importance=TRUE) > fit$importance setosa versicolor virginica MeanDecreaseAccuracy MeanDecreaseGini Sepal.Length 0.027078501 0.019418330 0.040497602 0.02898837 9.173648 Sepal.Width 0.008553449 0.001962036 0.006951771 0.00575489 2.472105 Petal.Length 0.313303381 0.291818815 0.280981959 0.29216790 41.284869 Petal.Width 0.349686983 0.318527008 0.270975757 0.31054451 46.323415 > …

4
Есть ли способ использовать перекрестную проверку для выбора переменных / признаков в R?
У меня есть набор данных с около 70 переменных, которые я хотел бы сократить. Я хочу использовать CV, чтобы найти наиболее полезные переменные следующим образом. 1) Случайно выберите, скажем, 20 переменных. 2) Используйте stepwise/ LASSO/ lars/ etc для выбора наиболее важных переменных. 3) Повторите ~ 50x и посмотрите, какие переменные …

6
Сравните R-квадрат из двух разных моделей Random Forest
Я использую пакет randomForest в R для разработки модели случайного леса, чтобы попытаться объяснить непрерывный результат в «широком» наборе данных с большим количеством предикторов, чем выборок. В частности, я подгоняю одну модель RF, позволяющую процедуре выбрать из набора ~ 75 переменных предиктора, которые я считаю важными. Я проверяю, насколько хорошо …

1
Могут ли случайные леса справиться с MNIST намного лучше, чем ошибка тестирования 2,8%?
Я не нашел никакой литературы по применению случайных лесов к MNIST, CIFAR, STL-10 и т. Д., Поэтому я решил попробовать их с MNIST, не зависящим от перестановок . В R я попробовал: randomForest(train$x, factor(train$y), test$x, factor(test$y), ntree=500) Это работало в течение 2 часов и получило 2,8% ошибок теста. Я также …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.