Вопросы с тегом «cart»

«Деревья классификации и регрессии». CART - это популярный метод машинного обучения, который служит основой для таких методов, как случайные леса и общие реализации машин с градиентным ускорением.

9
Получение знаний из случайного леса
Случайные леса считаются черными ящиками, но недавно я подумал, какие знания можно получить из случайного леса? Наиболее очевидной вещью является важность переменных, в простейшем варианте это можно сделать, просто рассчитав количество вхождений переменной. Второе, о чем я думал, это взаимодействие. Я думаю, что если количество деревьев достаточно велико, можно проверить …

2
Градиентное дерево против случайного леса
Повышение градиентного дерева, предложенное Фридманом, использует деревья решений в качестве базовых учеников. Мне интересно, должны ли мы сделать базовое дерево решений настолько сложным, насколько это возможно (полностью выросло) или проще? Есть ли объяснение выбора? Случайный лес - это еще один метод ансамбля, использующий деревья решений в качестве базовых учащихся. Исходя …

1
Деревья условного вывода против традиционных деревьев решений
Может ли кто-нибудь объяснить основные различия между деревьями условного вывода ( ctreeиз partyпакета в R) по сравнению с более традиционными алгоритмами дерева решений (такими как rpartв R)? Что отличает CI-деревья? Сильные и слабые стороны? Обновление: я посмотрел на статью Хортхорна и др., На которую ссылается Чи в комментариях. Я не …

3
Пример: регрессия LASSO с использованием glmnet для двоичного результата
Я начинаю баловаться с использованием glmnetс LASSO регрессией , где мой результат представляет интерес дихотомический. Я создал небольшой фрейм данных ниже: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
Практические вопросы по настройке случайных лесов
Мои вопросы о случайных лесах. Концепция этого красивого классификатора мне ясна, но все же есть много практических вопросов использования. К сожалению, мне не удалось найти никакого практического руководства по ВЧ (я искал что-то вроде «Практического руководства по обучению машин Больцмана с ограничениями» Джеффри Хинтона, но для «Случайных лесов»!) Как можно …

3
Как на самом деле построить образец дерева из randomForest :: getTree ()? [закрыто]
Кто-нибудь получил библиотеку или предложения кода о том, как на самом деле построить пару образцов деревьев из: getTree(rfobj, k, labelVar=TRUE) (Да, я знаю, что вы не должны делать это оперативно, RF - это черный ящик и т. Д. И т. Д. Я хочу визуально проверить работоспособность дерева, чтобы убедиться, что …

3
Что такое девианс? (конкретно в CART / rpart)
Что такое «отклонение», как оно рассчитывается и как его используют в различных областях статистики? В частности, меня лично интересует его использование в CART (и его реализация в rpart в R). Я спрашиваю об этом, потому что в вики-статье, похоже, чего-то не хватает, и ваши идеи будут приветствоваться.
45 r  cart  rpart  deviance 

4
Обучение дерева решений против несбалансированных данных
Я новичок в области интеллектуального анализа данных и пытаюсь настроить дерево решений на основе набора данных, который сильно разбалансирован. Однако у меня проблемы с плохой точностью прогнозирования. Данные состоят из студентов, изучающих курсы, а переменная класса - это статус курса, который имеет два значения - отозванный или текущий. Возраст Этнос …

3
Почему деревья решений не требуют вычислительных затрат?
В «Введении в статистическое обучение с приложениями в R» авторы пишут, что подгонка дерева решений происходит очень быстро, но для меня это не имеет смысла. Алгоритм должен пройти через каждую функцию и разделить ее всеми возможными способами, чтобы найти оптимальное разбиение. Для числовых объектов с наблюдениями это может привести к …
38 cart 

6
Почему я получаю дерево решений со 100% точностью?
Я получаю 100% точность для своего дерева решений. Что я делаю не так? Это мой код: import pandas as pd import json import numpy as np import sklearn import matplotlib.pyplot as plt data = np.loadtxt("/Users/Nadjla/Downloads/allInteractionsnum.csv", delimiter=',') x = data[0:14] y = data[-1] from sklearn.cross_validation import train_test_split x_train = x[0:2635] x_test …

4
Какова слабая сторона деревьев решений?
Деревья решений кажутся очень понятным методом машинного обучения. После создания он может быть легко проверен человеком, что является большим преимуществом в некоторых приложениях. Каковы практические слабые стороны деревьев решений?

1
Относительная важность переменной для повышения
Я ищу объяснение того, как относительная важность переменной вычисляется в деревьях с градиентным усилением, которое не является слишком общим / упрощенным, например: Измерения основаны на количестве раз, которое переменная была выбрана для расщепления, взвешенной по квадрату улучшения модели в результате каждого расщепления и усредненном по всем деревьям . [ Элит …

3
Как случайные леса не чувствительны к выбросам?
Я читал в нескольких источниках, в том числе и в этом , что случайные леса не чувствительны к выбросам (например, как логистическая регрессия и другие методы ML). Тем не менее, две части интуиции говорят мне иначе: Всякий раз, когда построено дерево решений, все точки должны быть классифицированы. Это означает, что …

1
Каковы некоторые полезные рекомендации для параметров GBM?
Каковы некоторые полезные рекомендации для тестирования параметров (например, глубина взаимодействия, minchild, частота выборки и т. Д.) С использованием GBM? Допустим, у меня 70-100 функций, население 200 000, и я собираюсь проверить глубину взаимодействия 3 и 4. Очевидно, мне нужно провести некоторое тестирование, чтобы увидеть, какая комбинация параметров лучше всего подходит …

4
Как измерить / оценить «важность переменной» при использовании CART? (особенно используя {rpart} из R)
При построении модели CART (в частности, дерева классификации) с использованием rpart (в R) часто бывает интересно узнать, какова важность различных переменных, введенных в модель. Таким образом, мой вопрос: какие общие меры существуют для ранжирования / измерения важности переменных участвующих переменных в модели CART? И как это можно вычислить с помощью …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.