Вопросы с тегом «random-forest»

Случайный лес - это метод машинного обучения, основанный на объединении результатов множества деревьев решений.


1
R линейная регрессия категориальной переменной «скрытое» значение
Это всего лишь пример, с которым я сталкивался несколько раз, поэтому у меня нет примеров данных. Запуск модели линейной регрессии в R: a.lm = lm(Y ~ x1 + x2) x1является непрерывной переменной x2является категориальным и имеет три значения, например, «Низкий», «Средний» и «Высокий». Однако вывод, заданный R, будет выглядеть примерно …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
Изучение различий между популяциями
Скажем, у нас есть выборка из двух групп населения: Aи B. Давайте предположим, что эти группы состоят из отдельных лиц, и мы решили описать людей с точки зрения особенностей. Некоторые из этих функций являются категориальными (например, они ездят на работу?), А некоторые являются числовыми (например, их высота). Давайте назовем эти …

1
Алгебраические классификаторы, больше информации?
Я прочитал алгебраические классификаторы: общий подход к быстрой перекрестной проверке, онлайн-обучению и параллельному обучению, и был поражен эффективностью производных алгоритмов. Тем не менее, кажется, что помимо наивных байесовских (и GBM), не так много алгоритмов, адаптированных к этой структуре. Есть ли другие документы, которые работали над различными классификаторами? (SVM, случайные леса)

2
Присвоение большего веса более поздним наблюдениям регрессии
Как мне придать больший вес более поздним наблюдениям в R? Я предполагаю, что это часто задаваемый вопрос или желание, но мне трудно понять, как именно это реализовать. Я пытался много искать для этого, но я не могу найти хороший практический пример. В моем примере у меня будет большой набор данных …

2
Оценка ошибки из пакета для повышения?
В Случайном Лесу каждое дерево растет параллельно на уникальной выборке данных Boostrap. Поскольку ожидается, что каждая выборка бустрапа будет содержать около 63% уникальных наблюдений, это оставляет примерно 37% наблюдений, которые можно использовать для тестирования дерева. Теперь, кажется , что в стохастической Градиент Активизации, существует также оценки похож на тот , …

1
порог классификации в RandomForest-sklearn
1) Как я могу изменить порог классификации (я думаю, он равен 0,5 по умолчанию) в RandomForest в sklearn? 2) как я могу пробовать в sklearn? 3) У меня есть следующий результат из классификатора RandomForest: [[1635 1297] [520 3624]] precision recall f1-score support class 0 0.76 0.56 0.64 2932 class 1 …

1
Интерпретация оценки ошибок из пакета для RandomForestRegressor
Я использую регрессор RandomForest для своих данных, и я мог видеть, что показатель oob был получен равным 0,83. Я не уверен, как это получилось, чтобы быть таким. Я имею в виду, что мои цели - высокие значения в диапазоне 10 ^ 7. Так что, если это MSE, то это должно …

1
Прогнозирование с помощью randomForest (R), когда некоторые входные данные имеют пропущенные значения (NA)
У меня есть прекрасная randomForestклассификационная модель, которую я хотел бы использовать в приложении, которое предсказывает класс нового случая. В новом случае неизбежно отсутствуют значения. Прогноз не будет работать как таковой для АН. Как мне тогда это сделать? data(iris) # create first the new case with missing values na.row<-45 na.col<-c(3,5) case.na<-iris[na.row,] …

1
Как сравнить наблюдаемые и ожидаемые события?
Предположим, у меня есть одна выборка частот из 4 возможных событий: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 и у меня есть ожидаемые вероятности того, что мои события произойдут: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 С суммой наблюдаемых частот …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

3
Смещение, зависящее от распределения ответов при случайной регрессии леса
Я использую пакет randomForest в R (R версия 2.13.1, randomForest версия 4.6-2) для регрессии и заметил значительный сдвиг в моих результатах: ошибка прогнозирования зависит от значения переменной отклика. Высокие значения недооценены, а низкие значения переоценены. Сначала я подозревал, что это было следствием моих данных, но следующий простой пример предполагает, что …

2
Параметрический, полупараметрический и непараметрический бутстрап для смешанных моделей
Следующие прививки взяты из этой статьи . Я новичок в начальной загрузке и пытаюсь реализовать параметрическую, полупараметрическую и непараметрическую загрузку начальной загрузки для линейной смешанной модели с R bootпакетом. Код R Вот мой Rкод: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

1
Каковы практические и интерпретационные различия между альтернативами и логистической регрессией?
Недавний вопрос об альтернативах логистической регрессии в R дал множество ответов, включая randomForest, gbm, rpart, bayesglm и обобщенные аддитивные модели. Каковы практические и интерпретационные различия между этими методами и логистической регрессией? Какие предположения они делают (или не делают) относительно логистической регрессии? Подходят ли для проверки гипотез? И т.п.
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.