Вопросы с тегом «random-forest»

Случайный лес - это метод машинного обучения, основанный на объединении результатов множества деревьев решений.

2
Меры переменной значимости в случайных лесах
Я играл со случайными лесами для регрессии, и мне трудно понять, что именно означают эти два показателя важности и как их следует интерпретировать. importance()Функция дает два значения для каждой переменной: %IncMSEи IncNodePurity. Есть ли простые интерпретации для этих двух значений? В IncNodePurityчастности, действительно ли это просто увеличение RSS после удаления …

1
Вычисленный вручную
Я знаю, что это довольно специфический Rвопрос, но я могу думать о неправильной пропорции, объясненной, R2R2R^2 . Вот оно. Я пытаюсь использовать Rпакет randomForest. У меня есть некоторые тренировочные данные и данные тестирования. Когда я подгоняю модель случайного леса, randomForestфункция позволяет вам вводить новые данные тестирования для тестирования. Затем он …

6
Улучшение классификации со многими категориальными переменными
Я работаю над набором данных с 200 000+ выборок и примерно 50 объектами на выборку: 10 непрерывных переменных, а остальные ~ 40 являются категориальными переменными (страны, языки, научные области и т. Д.). Для этих категориальных переменных у вас есть, например, 150 разных стран, 50 языков, 50 научных областей и т. …

3
Создание «оценки достоверности» из голосов в случайных лесах?
Я рассчитываю обучить классификатор, который будет различать объекты Type Aи Type Bобъекты с достаточно большим обучающим набором, состоящим примерно из 10 000 объектов, около половины из которых есть, Type Aа половина из них Type B. Набор данных состоит из 100 непрерывных элементов, детализирующих физические свойства ячеек (размер, средний радиус и …

3
Как интерпретировать OOB и путаницу для случайного леса?
Я получил R-скрипт от кого-то для запуска модели случайного леса. Я изменил и запустил его с некоторыми данными о сотрудниках. Мы пытаемся предсказать добровольное увольнение. Вот некоторая дополнительная информация: это модель классификации, в которой 0 = сотрудник остался, 1 = сотрудник уволен, в настоящее время мы рассматриваем только дюжину переменных …

3
Как интерпретировать среднее снижение точности и среднее снижение GINI в моделях случайных лесов
У меня возникают трудности с пониманием того, как интерпретировать выходные данные переменной важности из пакета Random Forest. Среднее снижение точности обычно описывается как «снижение точности модели из-за изменения значений в каждой функции». Это утверждение о функции в целом или о конкретных значениях в функции? В любом случае, означает ли среднее …

3
Как случайные леса не чувствительны к выбросам?
Я читал в нескольких источниках, в том числе и в этом , что случайные леса не чувствительны к выбросам (например, как логистическая регрессия и другие методы ML). Тем не менее, две части интуиции говорят мне иначе: Всякий раз, когда построено дерево решений, все точки должны быть классифицированы. Это означает, что …

2
Не будут ли сильно коррелированные переменные в случайном лесу искажать точность и выбор характеристик?
В моем понимании, сильно коррелированные переменные не будут вызывать проблемы мультиколлинеарности в модели случайного леса (пожалуйста, исправьте меня, если я ошибаюсь). Однако, с другой стороны, если у меня будет слишком много переменных, содержащих аналогичную информацию, будет ли модель слишком весить для этого набора, а не для других? Например, есть два …

2
Относительная важность набора предикторов в классификации случайных лесов в R
Я хотел бы определить относительную важность наборов переменных для randomForestмодели классификации в R. importanceФункция предоставляет MeanDecreaseGiniметрику для каждого отдельного предиктора - это так же просто, как суммировать это для каждого предиктора в наборе? Например: # Assumes df has variables a1, a2, b1, b2, and outcome rf <- randomForest(outcome ~ ., …

3
Насколько хорошо R масштабируется для текстовых задач классификации? [закрыто]
Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыт 10 месяцев назад . Я пытаюсь ускорить работу с R. Я в конечном итоге хочу использовать библиотеки R для классификации текста. Мне было просто …


3
R: Случайный лес, выбрасывающий NaN / Inf в ошибке «вызова сторонней функции», несмотря на отсутствие NaN в наборе данных [закрыто]
Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . Я использую каретку, чтобы запустить перекрестный проверенный случайный лес по набору данных. Переменная Y является фактором. В моем наборе данных …

1
Преобразование матрицы подобия в (евклидову) матрицу расстояний
В алгоритме «Случайный лес» Брейман (автор) строит матрицу подобия следующим образом: Посылайте все учебные примеры по каждому дереву в лесу Если два примера попадают в один и тот же лист, увеличивайте соответствующий элемент в матрице подобия на 1 Нормализовать матрицу количеством деревьев Он говорит: Близость между случаями n и k …

4
Когда следует избегать Random Forest?
Хорошо известно, что случайные леса достаточно хорошо справляются с различными задачами, и их называют кожевниками методов обучения . Существуют ли какие-либо проблемы или особые условия, в которых следует избегать использования случайного леса?

4
Существует ли реализация Random Forest, которая хорошо работает с очень разреженными данными?
Существует ли реализация случайного леса R, которая хорошо работает с очень разреженными данными? У меня есть тысячи или миллионы логических входных переменных, но только сотни или около того будут ИСТИНА для любого данного примера. Я относительно новичок в R и заметил, что существует пакет Matrix для работы с разреженными данными, …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.