Вопросы с тегом «random-forest»

Случайный лес - это метод машинного обучения, основанный на объединении результатов множества деревьев решений.

3
Какими должны быть оптимальные параметры для классификатора Random Forest?
В настоящее время я использую набор инструментов RF на MATLAB для двоичной классификации. Набор данных: 50000 образцов и более 250 функций Так, каково должно быть количество деревьев и случайным образом выбранная особенность на каждом разделении, чтобы вырастить деревья? Может ли какой-либо другой параметр сильно повлиять на результаты?

4
Стоит ли беспокоиться о мультиколлинеарности при использовании нелинейных моделей?
Скажем, у нас есть проблема бинарной классификации с в основном категориальными особенностями. Мы используем некоторую нелинейную модель (например, XGBoost или Случайные Леса), чтобы изучить ее. Стоит ли еще беспокоиться о мультиколлинеарности? Почему? Если ответ на вышеприведенный ответ верен, как с этим бороться, учитывая, что используются нелинейные модели этих типов?

1
Оценить случайный лес: OOB против CV
Когда мы оцениваем качество случайного леса, например, с использованием AUC, более ли уместно вычислять эти количества по образцам «из пакета» или по совокупности перекрестной проверки? Я слышал, что вычисление его по образцам OOB дает более пессимистическую оценку, но я не понимаю, почему.

3
Случайный лес и усиление являются параметрическими или непараметрическими?
Прочитав отличное статистическое моделирование: две культуры (Breiman 2001) , мы можем использовать все различия между традиционными статистическими моделями (например, линейной регрессией) и алгоритмами машинного обучения (например, Bagging, Random Forest, Boosted trees ...). Брейман критикует модели данных (параметрические), потому что они основаны на предположении, что наблюдения генерируются известной формальной моделью, предписанной …

3
Случайный лес на многоуровневых / иерархически структурированных данных
Я довольно новичок в машинном обучении, методиках CART и тому подобном, и я надеюсь, что моя наивность не слишком очевидна. Как случайный лес обрабатывает многоуровневые / иерархические структуры данных (например, когда интерес представляет межуровневое взаимодействие)? То есть наборы данных с единицами анализа на нескольких иерархических уровнях ( например , ученики, …

1
Случайный лес и прогноз
Я пытаюсь понять, как работает Random Forest. У меня есть представление о том, как строятся деревья, но я не могу понять, как Random Forest делает прогнозы на выборке из сумки. Может ли кто-нибудь дать мне простое объяснение, пожалуйста? :)

2
Когда регистрировать / расширять ваши переменные при использовании моделей с произвольным лесом?
Я делаю регрессию, используя случайные леса для прогнозирования цен на основе нескольких атрибутов. Код написан на Python с использованием Scikit-learn. Как вы решаете, должны ли вы преобразовывать свои переменные, используя exp/ logперед тем, как использовать их для соответствия регрессионной модели? Обязательно ли это при использовании ансамблевого подхода, такого как Random …

3
СПС по многомерным текстовым данным до классификации случайных лесов?
Имеет ли смысл делать PCA перед проведением рандомизации леса? Я имею дело с многомерными текстовыми данными, и я хочу сделать сокращение возможностей, чтобы помочь избежать проклятия размерности, но разве Случайные Леса уже к некоторому уменьшению размеров уже?

6
Случайный лес: как обрабатывать новые уровни факторов в тестовом наборе?
Я пытаюсь делать прогнозы, используя модель случайного леса в R. Однако я получаю ошибки, так как некоторые факторы имеют разные значения в тестовом наборе, чем в обучающем наборе. Например, фактор Cat_2имеет значения 34, 68, 76и т. Д. В тестовом наборе, которые не отображаются в обучающем наборе. К сожалению, я не …

3
Существует ли формула или правило для определения правильного размера выборки для randomForest?
Я играю с randomForest и обнаружил, что обычно увеличение SampSize приводит к повышению производительности. Существует ли правило / формула / и т. Д., В котором предлагается оптимальный размер sampSize или это метод проб и ошибок? Я предполагаю другой способ сформулировать это; каковы мои риски слишком малого размера или слишком большого …
13 r  random-forest 

1
В Случайном Лесу, почему случайное подмножество объектов выбрано на уровне узла, а не на уровне дерева?
Мой вопрос: почему случайный лес учитывает случайные подмножества объектов для разбиения на уровне узла в каждом дереве, а не на уровне дерева ? Справочная информация: это вопрос истории. Тин Кам Хо опубликовал эту статью о построении «лесов принятия решений» путем случайного выбора подмножества объектов, которые будут использоваться для выращивания каждого …

1
Как Kinect использует случайные леса?
Я читал на этом сайте, что, по-видимому, Kinect каким-то образом использует алгоритм случайных лесов для машинного обучения. Кто-нибудь может объяснить, для чего он использует случайные леса и как работает их подход?

2
Подходит ли Random Forest для очень маленьких наборов данных?
У меня есть набор данных, состоящий из 24 строк ежемесячных данных. Особенности ВВП, прибытие в аэропорт, месяц и некоторые другие. Зависимой переменной является количество посетителей популярного туристического направления. Подойдет ли Random Forest для такой проблемы? Данные не являются общедоступными, поэтому я не могу опубликовать образец.


2
Лучшие практики для кодирования категориальных функций для деревьев решений?
При кодировании категориальных признаков для линейной регрессии существует правило: количество манекенов должно быть на единицу меньше общего количества уровней (чтобы избежать коллинеарности). Существует ли подобное правило для деревьев решений (в мешках, усиленных)? Я спрашиваю об этом, потому что стандартная практика в Python, по-видимому, заключается в расширении nуровней в nманекены (sklearns …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.