Наука о данных random-forest

6

строки как объекты в дереве решений / случайном лесу

Я делаю некоторые проблемы с применением дерева решений / случайного леса. Я пытаюсь приспособить проблему, в которой в качестве функций есть цифры, а также строки (например, название страны). Теперь библиотека scikit-learn принимает только числа в качестве параметров, но я хочу ввести строки, так как они несут значительный объем знаний. Как …

64 machine-learning python scikit-learn random-forest decision-trees

9

ValueError: Входные данные содержат NaN, бесконечность или значение, слишком большое для dtype ('float32')

Я получил ValueError при прогнозировании тестовых данных с использованием модели RandomForest. Мой код: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) Ошибка: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). Как найти неверные значения в тестовом наборе данных? Кроме …

42 python random-forest pandas

1

Почему xgboost намного быстрее, чем sklearn GradientBoostingClassifier?

Я пытаюсь обучить модели повышения градиента более чем на 50 тыс. Примеров с 100 числовыми функциями. XGBClassifierобрабатывает 500 деревьев в течение 43 секунд на моей машине, в то время как GradientBoostingClassifierобрабатывает только 10 деревьев (!) за 1 минуту и 2 секунды :( Я не стал пытаться вырастить 500 деревьев, так …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

4

Когда использовать Random Forest поверх SVM и наоборот?

Когда можно использовать Random Forestснова SVMи наоборот? Я понимаю, что cross-validationсравнение моделей является важным аспектом выбора модели, но здесь я хотел бы узнать больше о практических правилах и эвристике этих двух методов. Может кто-нибудь объяснить, какие тонкости, сильные и слабые стороны классификаторов, а также проблемы, которые лучше всего подходят для …

28 machine-learning classification random-forest svm

3

Понимание Forex_Proba из MultiOutputClassifier

Я следую этому примеру на веб-сайте scikit-learn, чтобы выполнить многопользовательскую классификацию с использованием модели Random Forest. from sklearn.datasets import make_classification from sklearn.multioutput import MultiOutputClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.utils import shuffle import numpy as np X, y1 = make_classification(n_samples=5, n_features=5, n_informative=2, n_classes=2, random_state=1) y2 = shuffle(y1, random_state=1) Y = …

28 scikit-learn random-forest multilabel-classification

3

Зачем нам XGBoost и Random Forest?

Я не был ясен в паре концепций: XGBoost превращает слабых учеников в сильных учеников. В чем преимущество этого? Объединить много слабых учеников вместо одного дерева? Random Forest использует различные образцы из дерева для создания дерева. В чем преимущество этого метода вместо использования единственного дерева?

25 machine-learning data-mining random-forest decision-trees xgboost

4

Есть ли случайный лес наряд?

Я читал вокруг о случайных лесах, но я не могу найти окончательного ответа о проблеме переоснащения. Согласно оригинальной статье Бреймана, они не должны переодеваться при увеличении количества деревьев в лесу, но, похоже, по этому поводу нет единого мнения. Это создает мне некоторую путаницу по этому вопросу. Может быть, кто-то более …

24 machine-learning random-forest

3

Требуется ли перекрестная проверка для моделирования со случайными лесами?

Насколько я видел, мнения об этом, как правило, расходятся. Лучшая практика, безусловно, диктует использование перекрестной проверки (особенно если сравнивать RF с другими алгоритмами в одном и том же наборе данных). С другой стороны, исходный источник утверждает, что факт ошибки OOB, вычисляемый во время обучения модели, является достаточным показателем эффективности тестового …

23 random-forest cross-validation

5

Выберите алгоритм двоичной классификации

У меня есть проблема двоичной классификации: Примерно 1000 образцов в тренировочном наборе 10 атрибутов, включая двоичные, числовые и категориальные Какой алгоритм является лучшим выбором для этого типа проблемы? По умолчанию я собираюсь начать с SVM (предварительно имея номинальные значения атрибутов, преобразованные в двоичные объекты), поскольку он считается лучшим для относительно …

17 classification binary svm random-forest logistic-regression

2

Как повысить точность классификаторов?

Я использую пример OpenCV letter_recog.cpp для экспериментов со случайными деревьями и другими классификаторами. Этот пример имеет реализации шести классификаторов - случайных деревьев, бустинга, MLP, kNN, наивных байесовских и SVM. Используется набор данных для распознавания букв UCI с 20000 экземплярами и 16 функциями, которые я разделил пополам для обучения и тестирования. …

16 machine-learning classification svm accuracy random-forest

5

сделать морскую карту тепла больше

Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера тепловой карты?

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

1

Метод оценки OOB RandomForestClassifier

Использует ли реализация случайного леса в scikit-learn среднюю точность в качестве метода оценки для оценки ошибки обобщения с выборками из пакета? Это не упоминается в документации, но метод Score () сообщает о средней точности. У меня очень несбалансированный набор данных, и я использую AUC ROC в качестве метрики оценки в …

16 random-forest scikit-learn

1

Нужна ли стратифицированная выборка (случайный лес, Python)?

Я использую Python для запуска модели случайного леса на моем несбалансированном наборе данных (целевой переменной был двоичный класс). Разделяя набор данных обучения и тестирования, я боролся, использовать ли стратифицированную выборку (как показано в коде) или нет. До сих пор я наблюдал в своем проекте, что стратифицированный случай приведет к более …

14 machine-learning python random-forest sampling training

1

Сколько функций для выборки с использованием случайных лесов

На странице Википедии, которая цитирует «Элементы статистического обучения», написано: Как правило, для задачи классификации с функциями, ⌊ √ппp функции используются в каждом разделении.⌊ р-√⌋⌊п⌋\lfloor \sqrt{p}\rfloor Я понимаю, что это довольно обоснованное предположение, и оно, вероятно, подтверждается эмпирическими данными, но есть ли другие причины, по которым можно было бы выбрать квадратный …

13 statistics random-forest optimization evaluation sampling

5

Важность функции с помощью scikit-learn Random Forest показывает очень высокое стандартное отклонение

Я использую scikit-learn Random Forest Classifier и хочу показать важность функции, как в этом примере . Однако мой результат совершенно другой, в том смысле, что стандартное отклонение важности объекта почти всегда больше, чем значение самого свойства (см. Прилагаемое изображение). Возможно ли иметь такое поведение, или я делаю какие-то ошибки при …

13 python random-forest

Вопросы с тегом «random-forest»