Статистика и большие данные random-forest

3

Какими должны быть оптимальные параметры для классификатора Random Forest?

В настоящее время я использую набор инструментов RF на MATLAB для двоичной классификации. Набор данных: 50000 образцов и более 250 функций Так, каково должно быть количество деревьев и случайным образом выбранная особенность на каждом разделении, чтобы вырастить деревья? Может ли какой-либо другой параметр сильно повлиять на результаты?

14 machine-learning classification random-forest

4

Стоит ли беспокоиться о мультиколлинеарности при использовании нелинейных моделей?

Скажем, у нас есть проблема бинарной классификации с в основном категориальными особенностями. Мы используем некоторую нелинейную модель (например, XGBoost или Случайные Леса), чтобы изучить ее. Стоит ли еще беспокоиться о мультиколлинеарности? Почему? Если ответ на вышеприведенный ответ верен, как с этим бороться, учитывая, что используются нелинейные модели этих типов?

13 classification random-forest multicollinearity xgboost

1

Оценить случайный лес: OOB против CV

Когда мы оцениваем качество случайного леса, например, с использованием AUC, более ли уместно вычислять эти количества по образцам «из пакета» или по совокупности перекрестной проверки? Я слышал, что вычисление его по образцам OOB дает более пессимистическую оценку, но я не понимаю, почему.

13 cross-validation random-forest auc

3

Случайный лес и усиление являются параметрическими или непараметрическими?

Прочитав отличное статистическое моделирование: две культуры (Breiman 2001) , мы можем использовать все различия между традиционными статистическими моделями (например, линейной регрессией) и алгоритмами машинного обучения (например, Bagging, Random Forest, Boosted trees ...). Брейман критикует модели данных (параметрические), потому что они основаны на предположении, что наблюдения генерируются известной формальной моделью, предписанной …

13 machine-learning data-mining random-forest boosting bagging

3

Случайный лес на многоуровневых / иерархически структурированных данных

Я довольно новичок в машинном обучении, методиках CART и тому подобном, и я надеюсь, что моя наивность не слишком очевидна. Как случайный лес обрабатывает многоуровневые / иерархические структуры данных (например, когда интерес представляет межуровневое взаимодействие)? То есть наборы данных с единицами анализа на нескольких иерархических уровнях ( например , ученики, …

13 machine-learning random-forest multilevel-analysis cart

1

Случайный лес и прогноз

Я пытаюсь понять, как работает Random Forest. У меня есть представление о том, как строятся деревья, но я не могу понять, как Random Forest делает прогнозы на выборке из сумки. Может ли кто-нибудь дать мне простое объяснение, пожалуйста? :)

13 random-forest prediction

2

Когда регистрировать / расширять ваши переменные при использовании моделей с произвольным лесом?

Я делаю регрессию, используя случайные леса для прогнозирования цен на основе нескольких атрибутов. Код написан на Python с использованием Scikit-learn. Как вы решаете, должны ли вы преобразовывать свои переменные, используя exp/ logперед тем, как использовать их для соответствия регрессионной модели? Обязательно ли это при использовании ансамблевого подхода, такого как Random …

13 regression machine-learning predictive-models python random-forest

3

СПС по многомерным текстовым данным до классификации случайных лесов?

Имеет ли смысл делать PCA перед проведением рандомизации леса? Я имею дело с многомерными текстовыми данными, и я хочу сделать сокращение возможностей, чтобы помочь избежать проклятия размерности, но разве Случайные Леса уже к некоторому уменьшению размеров уже?

13 classification pca random-forest dimensionality-reduction high-dimensional

6

Случайный лес: как обрабатывать новые уровни факторов в тестовом наборе?

Я пытаюсь делать прогнозы, используя модель случайного леса в R. Однако я получаю ошибки, так как некоторые факторы имеют разные значения в тестовом наборе, чем в обучающем наборе. Например, фактор Cat_2имеет значения 34, 68, 76и т. Д. В тестовом наборе, которые не отображаются в обучающем наборе. К сожалению, я не …

13 r categorical-data random-forest

3

Существует ли формула или правило для определения правильного размера выборки для randomForest?

Я играю с randomForest и обнаружил, что обычно увеличение SampSize приводит к повышению производительности. Существует ли правило / формула / и т. Д., В котором предлагается оптимальный размер sampSize или это метод проб и ошибок? Я предполагаю другой способ сформулировать это; каковы мои риски слишком малого размера или слишком большого …

13 r random-forest

1

В Случайном Лесу, почему случайное подмножество объектов выбрано на уровне узла, а не на уровне дерева?

Мой вопрос: почему случайный лес учитывает случайные подмножества объектов для разбиения на уровне узла в каждом дереве, а не на уровне дерева ? Справочная информация: это вопрос истории. Тин Кам Хо опубликовал эту статью о построении «лесов принятия решений» путем случайного выбора подмножества объектов, которые будут использоваться для выращивания каждого …

13 machine-learning feature-selection random-forest importance history

1

Как Kinect использует случайные леса?

Я читал на этом сайте, что, по-видимому, Kinect каким-то образом использует алгоритм случайных лесов для машинного обучения. Кто-нибудь может объяснить, для чего он использует случайные леса и как работает их подход?

13 machine-learning random-forest application

2

Подходит ли Random Forest для очень маленьких наборов данных?

У меня есть набор данных, состоящий из 24 строк ежемесячных данных. Особенности ВВП, прибытие в аэропорт, месяц и некоторые другие. Зависимой переменной является количество посетителей популярного туристического направления. Подойдет ли Random Forest для такой проблемы? Данные не являются общедоступными, поэтому я не могу опубликовать образец.

13 random-forest small-sample

2

Что подразумевается под близостью в случайных лесах?

Я столкнулся с термином близость в случайных лесах. Но я не мог понять, что он делает в случайных лесах. Как это помогает в целях классификации?

13 machine-learning random-forest

2

Лучшие практики для кодирования категориальных функций для деревьев решений?

При кодировании категориальных признаков для линейной регрессии существует правило: количество манекенов должно быть на единицу меньше общего количества уровней (чтобы избежать коллинеарности). Существует ли подобное правило для деревьев решений (в мешках, усиленных)? Я спрашиваю об этом, потому что стандартная практика в Python, по-видимому, заключается в расширении nуровней в nманекены (sklearns …

13 categorical-data random-forest cart boosting

Вопросы с тегом «random-forest»