Статистика и большие данные random-forest

2

Насколько я понимаю, CNN состоят из двух частей. Первая часть (слои conv / pool), которая выполняет извлечение объектов, и вторая часть (слои fc), которая выполняет классификацию по объектам. Поскольку полностью связанные нейронные сети не являются лучшими классификаторами (т.е. они в большинстве случаев выигрывают у SVM и RF), почему CNN заключают …

11 neural-networks svm random-forest conv-neural-network

1

RandomForest и веса классов

Вопрос в одном предложении: знает ли кто-нибудь, как определить вес хорошего класса для случайного леса? Пояснение: я играю с несбалансированными наборами данных. Я хочу использовать этот Rпакет randomForest, чтобы обучить модель очень искаженному набору данных, используя только небольшие положительные примеры и множество отрицательных примеров. Я знаю, что есть и другие …

11 r random-forest

1

Почему большой выбор K понижает мою оценку перекрестной проверки?

Играя с набором данных Boston Housing Dat и RandomForestRegressor(с параметрами по умолчанию) в scikit-learn, я заметил кое-что странное: средний балл перекрестной проверки уменьшился, когда я увеличил число сгибов выше 10. Моя стратегия перекрестной проверки была следующей: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) scores = cross_val_score(est, X, y, cv=cv_met) ... где num_cvsбыл изменен. …

11 machine-learning cross-validation random-forest sample-size scikit-learn

2

Деревья решений и регрессия - Могут ли прогнозируемые значения выходить за пределы диапазона данных обучения?

Когда речь идет о деревьях решений, может ли прогнозируемое значение лежать вне диапазона обучающих данных? Например, если диапазон набора обучающих данных целевой переменной составляет 0-100, когда я генерирую свою модель и применяю ее к чему-то другому, могут ли мои значения быть -5? или 150? Учитывая, что я понимаю регрессию дерева …

11 regression predictive-models random-forest cart

2

Выборка с заменой в R randomForest

Реализация randomForest не позволяет производить выборку сверх количества наблюдений, даже при выборке с заменой. Почему это? Работает отлично: rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE) rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE) Что я хочу сделать: rf <- randomForest(Species ~ ., iris, sampsize=c(51, 1, 1), replace=TRUE) …

11 r sampling random-forest stratification oversampling

2

MCMC выборка пространства дерева решений в сравнении со случайным лесом

Случайный лес представляет собой совокупность деревьев решений , сформированных случайным образом выбирая только определенные функции для построения каждого дерева с (а иногда и расфасовке тренировочную данные). По-видимому, они хорошо учатся и обобщают. Кто-нибудь делал выборку MCMC пространства дерева решений или сравнивал их со случайными лесами? Я знаю, что в вычислительном …

11 mcmc monte-carlo random-forest cart

1

Сокращение количества уровней неупорядоченной категориальной предикторной переменной

Я хочу обучить классификатор, скажем SVM, или случайный лес, или любой другой классификатор. Одной из функций в наборе данных является категориальная переменная с 1000 уровнями. Каков наилучший способ уменьшить количество уровней в этой переменной. В R есть функция, называемая combine.levels()в пакете Hmisc , которая объединяет нечастые уровни, но я искал …

11 classification svm random-forest many-categories

2

Есть ли способ объяснить прогноз из модели случайного леса?

Скажем, у меня есть модель прогнозирующей классификации, основанная на случайном лесу (используя пакет randomForest в R). Я хотел бы настроить его так, чтобы конечные пользователи могли указать элемент, для которого создается прогноз, и он выведет вероятность классификации. Пока проблем нет. Но было бы полезно / круто иметь возможность выводить что-то …

11 machine-learning random-forest

2

Почему дерево в мешках / случайное лесное дерево имеет более высокий уклон, чем одно дерево решений?

Если мы рассмотрим полноценное дерево решений (т.е. дерево необрезанных решений), оно имеет высокую дисперсию и низкое смещение. Мешки и случайные леса используют эти модели высокой дисперсии и агрегируют их, чтобы уменьшить дисперсию и, таким образом, повысить точность прогнозирования. И Мешки, и Случайные Леса используют выборку Bootstrap, и, как описано в …

11 variance random-forest cart bias bagging

1

Мотивация за шагами алгоритма случайного леса

Метод создания случайного леса, с которым я знаком, заключается в следующем: (из http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm ) Чтобы построить дерево в лесу, мы: Загрузите образец размера N, где N - размер нашего тренировочного набора. Используйте этот загруженный образец в качестве обучающего набора для этого дерева. В каждом узле дерева случайным образом выбираем m …

11 machine-learning classification random-forest

1

Как рассчитать доверительные оценки в регрессии (со случайными лесами / XGBoost) для каждого прогноза в R?

Есть ли способ получить показатель достоверности (мы можем также назвать его значением достоверности или вероятности) для каждого прогнозируемого значения при использовании таких алгоритмов, как Random Forests или Extreme Gradient Boosting (XGBoost)? Допустим, этот показатель доверия будет варьироваться от 0 до 1 и покажет, насколько я уверен в том или ином …

11 r regression random-forest prediction boosting

1

Должен ли я выбрать регрессор или классификатор Random Forest?

Я подгоняю набор данных с бинарным целевым классом по случайному лесу. В Python я могу сделать это либо randomforestclassifier, либо randomforestregressor. Я могу получить классификацию напрямую из randomforestclassifier или я могу сначала запустить randomforestregressor и вернуть набор оценочных баллов (непрерывное значение). Затем я могу найти предельное значение, чтобы вывести прогнозируемые …

11 python random-forest

1

Имеет ли смысл использовать выбор объектов перед случайным лесом?

Все в названии, имеет ли смысл использовать выборку объектов перед использованием случайного леса?

11 machine-learning feature-selection random-forest

2

Случайный лес на сгруппированных данных

Я использую случайный лес на многомерных сгруппированных данных (50 числовых входных переменных), которые имеют иерархическую структуру. Данные были собраны с 6 повторениями в 30 положениях 70 различных объектов, что привело к 12600 точкам данных, которые не являются независимыми. Кажется, что случайный лес перегружает данные, так как ошибка oob намного меньше …

11 regression random-forest

1

Справедливо ли задавать начальное число в случайной лесной регрессии для получения максимальной точности?

У меня есть случайная регрессия леса, построенная с использованием skl, и я отмечаю, что я получаю разные результаты, основываясь на установке случайного начального числа на разные значения. Если я использую LOOCV, чтобы определить, какое семя работает лучше всего, это правильный метод?

10 cross-validation random-forest

Вопросы с тегом «random-forest»