Статистика и большие данные cart

2

Лучшие практики для кодирования категориальных функций для деревьев решений?

При кодировании категориальных признаков для линейной регрессии существует правило: количество манекенов должно быть на единицу меньше общего количества уровней (чтобы избежать коллинеарности). Существует ли подобное правило для деревьев решений (в мешках, усиленных)? Я спрашиваю об этом, потому что стандартная практика в Python, по-видимому, заключается в расширении nуровней в nманекены (sklearns …

13 categorical-data random-forest cart boosting

3

почему метод повышения чувствительности к выбросам

Я нашел много статей, в которых говорится, что методы повышения чувствительны к выбросам, но нет статей, объясняющих почему. По моему опыту, выбросы плохи для любого алгоритма машинного обучения, но почему методы повышения выделяются как особенно чувствительные? Как бы оценили следующие алгоритмы с точки зрения чувствительности к выбросам: буст-дерево, случайный лес, …

12 machine-learning svm outliers cart boosting

1

Какая функция стоимости лучше для случайного лесного дерева: индекс Джини или энтропия?

Какая функция стоимости лучше для случайного лесного дерева: индекс Джини или энтропия? Я пытаюсь реализовать случайный лес в Clojure.

12 classification random-forest cart

1

Разница в реализации бинарных разбиений в деревьях решений

Мне интересно узнать о практической реализации бинарного разбиения в дереве решений - поскольку оно относится к уровням категориального предиктора .XjXjX{j} В частности, я часто буду использовать какую-то схему выборки (например, пакетирование, передискретизация и т. Д.) При построении прогнозной модели с использованием дерева решений - чтобы улучшить ее прогнозную точность и …

12 cart rpart partitioning

2

Алгоритмы машинного обучения для панельных данных

В этом вопросе. Существует ли метод построения деревьев решений, который учитывает структурированные / иерархические / многоуровневые предикторы? - они упоминают метод данных панели для деревьев. Существуют ли специальные методы данных панели для поддержки векторных машин и нейронных сетей? Если да, не могли бы вы привести несколько статей для алгоритмов и …

12 r machine-learning svm panel-data cart

2

Случайные Леса показывают смещение предсказания?

Я думаю, что это простой вопрос, хотя причины, почему или почему нет, могут и не быть. Причина, по которой я спрашиваю, состоит в том, что я недавно написал свою собственную реализацию RF, и, хотя она работает хорошо, она работает не так, как я ожидал (на основе набора данных о конкурсе …

12 algorithms random-forest cart

2

Деревья решений и регрессия - Могут ли прогнозируемые значения выходить за пределы диапазона данных обучения?

Когда речь идет о деревьях решений, может ли прогнозируемое значение лежать вне диапазона обучающих данных? Например, если диапазон набора обучающих данных целевой переменной составляет 0-100, когда я генерирую свою модель и применяю ее к чему-то другому, могут ли мои значения быть -5? или 150? Учитывая, что я понимаю регрессию дерева …

11 regression predictive-models random-forest cart

1

Когда использовать примеси Джини, а когда использовать получение информации?

Может кто-нибудь объяснить мне, когда использовать примеси Джини и информацию для деревьев решений? Можете ли вы дать мне ситуации / примеры того, когда лучше всего использовать какие?

11 machine-learning classification data-mining cart

3

Модель классификации для прогнозирования рейтинга фильмов

Я немного новичок в области интеллектуального анализа данных и работаю над моделью классификации для прогнозирования рейтинга фильмов. Я собрал наборы данных из IMDB, и я планирую использовать деревья решений и подходы ближайшего соседа для моей модели. Я хотел бы знать, какой свободно доступный инструмент интеллектуального анализа данных может предоставить мне …

11 classification cart

2

MCMC выборка пространства дерева решений в сравнении со случайным лесом

Случайный лес представляет собой совокупность деревьев решений , сформированных случайным образом выбирая только определенные функции для построения каждого дерева с (а иногда и расфасовке тренировочную данные). По-видимому, они хорошо учатся и обобщают. Кто-нибудь делал выборку MCMC пространства дерева решений или сравнивал их со случайными лесами? Я знаю, что в вычислительном …

11 mcmc monte-carlo random-forest cart

2

Организация дерева классификации (в rpart) в набор правил?

Существует ли способ построения сложного дерева классификации с использованием rpart (в R) для организации правил принятия решений, создаваемых для каждого класса? Таким образом, вместо того, чтобы получить одно огромное дерево, мы получаем набор правил для каждого из классов? (если так, то как?) Вот простой пример кода для демонстрации примеров: fit …

11 r classification cart rpart

3

Существуют ли какие-либо библиотеки для CART-подобных методов, использующих разреженные предикторы и ответы?

Я работаю с некоторыми большими наборами данных, используя пакет gbm в R. И моя матрица предикторов, и мой вектор ответов довольно редки (то есть большинство записей равно нулю). Я надеялся построить деревья решений, используя алгоритм, который использует преимущества этой редкости, как это было сделано здесь ). В этой статье, как …

11 r regression machine-learning classification cart

2

Почему дерево в мешках / случайное лесное дерево имеет более высокий уклон, чем одно дерево решений?

Если мы рассмотрим полноценное дерево решений (т.е. дерево необрезанных решений), оно имеет высокую дисперсию и низкое смещение. Мешки и случайные леса используют эти модели высокой дисперсии и агрегируют их, чтобы уменьшить дисперсию и, таким образом, повысить точность прогнозирования. И Мешки, и Случайные Леса используют выборку Bootstrap, и, как описано в …

11 variance random-forest cart bias bagging

1

R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?

mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и ti(x1) + ti(x2) + ti(x1, x2)может дать (немного) разные результаты. MWE …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

1

Как использовать пень принятия решения как слабый ученик в Adaboost?

Я хочу реализовать Adaboost с помощью Decision Stump. Правильно ли принимать столько решений, сколько функций нашего набора данных в каждой итерации Adaboost? Например, если у меня есть набор данных с 24 функциями, должен ли я иметь 24 классификатора решения для каждой итерации? Или я должен случайно выбрать некоторые функции и …

11 machine-learning classification cart boosting

Вопросы с тегом «cart»