Статистика и большие данные random-forest

1

Подходит ли значение R-квадрата для сравнения моделей?

Я пытаюсь определить лучшую модель для прогнозирования цен на автомобили, используя цены и функции, доступные на сайтах, рекламируемых автомобилями. Для этого я использовал пару моделей из библиотеки scikit-learn и модели нейронной сети из pybrain и neurolab. Подход, который я использовал до сих пор, состоит в том, чтобы прогонять фиксированный объем …

17 machine-learning neural-networks random-forest r-squared elastic-net

3

Какие алгоритмы нуждаются в масштабировании функций, кроме SVM?

Я работаю со многими алгоритмами: RandomForest, DecisionTrees, NaiveBayes, SVM (kernel = linear и rbf), KNN, LDA и XGBoost. Все они были довольно быстрыми, кроме SVM. Именно тогда я узнал, что для ускорения работы требуется масштабирование функций. Тогда я начал задаваться вопросом, должен ли я сделать то же самое для других …

17 machine-learning svm random-forest naive-bayes xgboost

1

В случайном лесу больше% IncMSE лучше или хуже?

После того как я построил (R) модель случайного леса в R, вызов rf$importanceпредоставляет мне две меры для каждой переменной-предиктора, %IncMSEи IncNodePurity. Является ли интерпретация того, что предикторные переменные с меньшими %IncMSEзначениями важнее, чем предикторные переменные с большими %IncMSEзначениями? Как насчет IncNodePurity?

17 r feature-selection random-forest

5

Для классификации со случайными лесами в R, как следует приспособиться к несбалансированным размерам классов?

Я изучаю различные методы классификации для проекта, над которым я работаю, и заинтересован в попытках использовать «Случайные леса». Я стараюсь обучаться сам по себе, и буду признателен за любую помощь, предоставленную сообществом CV. Я разделил свои данные на тренировочные / тестовые наборы. После экспериментов со случайными лесами в R (с …

17 r machine-learning random-forest

2

Важность функции с фиктивными переменными

Я пытаюсь понять, как я могу получить важность функции категориальной переменной, которая была разбита на фиктивные переменные. Я использую Scikit-Learn, который не обрабатывает категориальные переменные для вас, как R или H2O. Если я разобью категориальную переменную на фиктивные переменные, я получу отдельные значения свойств для каждого класса в этой переменной. …

17 categorical-data random-forest interpretation importance

2

Будет ли возможен / практичен случайный лес с несколькими выходами?

Случайные леса (RF) - это конкурентный метод моделирования / добычи данных. Модель RF имеет один выход - переменную выход / прогноз. Наивный подход к моделированию нескольких выходов с RFs должен был бы построить RF для каждой выходной переменной. Таким образом, у нас есть N независимых моделей, и там, где есть …

17 machine-learning cart random-forest multilabel

2

Выбор объектов со случайными лесами

У меня есть набор данных с в основном финансовыми переменными (120 функций, 4k примеров), которые в основном сильно коррелированы и очень шумные (например, технические индикаторы), поэтому я хотел бы выбрать около 20-30 максимум для последующего использования с обучением модели (бинарная классификация) - увеличение уменьшение). Я думал об использовании случайных лесов …

16 feature-selection random-forest python

2

При каких условиях машины повышения градиента превосходят случайные леса?

Может ли машина повышения градиента Фридмана достичь лучшей производительности, чем «Случайный лес» Бреймана ? Если да, то в каких условиях или какой набор данных может сделать gbm лучше?

16 machine-learning data-mining random-forest boosting

4

Низкая точность классификации, что делать дальше?

Итак, я новичок в области ОД и пытаюсь провести некоторую классификацию. Моя цель - предсказать исход спортивного события. Я собрал некоторые исторические данные и сейчас пытаюсь обучить классификатор. Я получил около 1200 сэмплов, 0,2 из которых я разделил для целей тестирования, другие я включил в поиск по сетке (включая перекрестную …

16 classification svm feature-selection random-forest

1

R пакет для взвешенного случайного леса? вариант classwt?

Я пытаюсь использовать Случайный Лес, чтобы предсказать исход крайне несбалансированного набора данных (уровень меньшинства составляет около 1% или даже меньше). Поскольку традиционный алгоритм случайного леса минимизирует общую частоту ошибок, вместо того, чтобы уделять особое внимание классам меньшинства, он не применим напрямую к несбалансированным данным. Поэтому я хочу назначить высокую цену …

16 r random-forest

2

Нужен ли случайный лес масштабируемым или центрированным входным переменным?

Мои входные переменные имеют разные размеры. Некоторые переменные являются десятичными, а некоторые - сотнями. Необходимо ли центрировать (вычитать среднее) или масштабировать (делить на стандартное отклонение) эти входные переменные, чтобы сделать данные безразмерными при использовании случайного леса?

16 random-forest standardization data-preprocessing centering

3

Каким образом прогнозируемые вероятности класса `gnett.randomForest` оценивают?

Как randomForestпакет оценивает вероятности класса, когда я использую predict(model, data, type = "prob")? Я использовал rangerдля обучения случайных лесов, используя probability = Tаргумент для прогнозирования вероятностей. rangerв документации сказано что это: Вырастите лес вероятности, как в Malley et al. (2012). Я смоделировал некоторые данные и попробовал оба пакета и получил …

16 r random-forest prediction

2

Ошибка «из сумки» делает резюме ненужным в случайных лесах?

Я довольно новичок в случайных лесах. В прошлом я всегда сравнивал точность подгонки к тесту с подгонкой к тренировке, чтобы обнаружить любое переоснащение. Но я только что прочитал здесь, что: «В случайных лесах нет необходимости в перекрестной проверке или отдельном наборе тестов, чтобы получить объективную оценку ошибки набора тестов. Она …

15 cross-validation random-forest overfitting

1

Использует ли случайный лес Бреймана прирост информации или индекс Джини?

Я хотел бы знать, использует ли случайный лес Бреймана (случайный лес в пакете R randomForest) в качестве критерия расщепления (критерий для выбора атрибута) получение информации или индекс Джини? Я пытался выяснить это на http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm и в документации для пакета randomForest в R. Но единственное, что я обнаружил, это то, что …

15 r random-forest entropy gini

1

Уменьшение Джини и примеси Джини у детей

Я работаю над критерием важности функции Джини для случайного леса. Следовательно, мне нужно рассчитать уменьшение Джини примеси в узле. Вот как я это делаю, что приводит к конфликту с определением, предполагающим, что я где-то ошибаюсь ... :) Для бинарного дерева и с учетом вероятностей левого и правого потомков я могу …

15 feature-selection random-forest cart

Вопросы с тегом «random-forest»