Вопросы с тегом «scikit-learn»

scikit-learn - это библиотека машинного обучения для Python, которая предоставляет простые и эффективные инструменты для анализа данных и интеллектуального анализа данных с упором на машинное обучение. Он доступен всем и может использоваться повторно в различных контекстах. Он построен на NumPy и SciPy. Проект с открытым исходным кодом и коммерчески доступным (лицензия BSD).

20
Кодирование меток в нескольких столбцах в scikit-learn
Я пытаюсь использовать scikit-learn's LabelEncoderдля кодирования панд DataFrameстроковых меток. Поскольку в фрейме данных есть много (более 50) столбцов, я хочу избежать создания LabelEncoderобъекта для каждого столбца; Я бы предпочел просто иметь один большой LabelEncoderобъект, который работает во всех моих столбцах данных. Бросок всего DataFrameв LabelEncoderсоздает следующую ошибку. Пожалуйста, имейте в …

12
Как нормализовать массив в NumPy?
Я хотел бы иметь норму одного массива NumPy. Более конкретно, я ищу эквивалентную версию этой функции def normalize(v): norm = np.linalg.norm(v) if norm == 0: return v return v / norm Есть ли что-то подобное в skearnили numpy? Эта функция работает в ситуации, когда vесть вектор 0.

6
Сохранить классификатор на диск в Scikit-Learn
Как сохранить обученный наивный байесовский классификатор на диск и использовать его для прогнозирования данных? У меня есть следующий пример программы с сайта scikit-learn: from sklearn import datasets iris = datasets.load_iris() from sklearn.naive_bayes import GaussianNB gnb = GaussianNB() y_pred = gnb.fit(iris.data, iris.target).predict(iris.data) print "Number of mislabeled points : %d" % (iris.target …

15
Ошибка импорта: нет модуля с именем sklearn.cross_validation
Я использую Python 2.7 в Ubuntu 14.04. Я установил scikit-learn, numpy и matplotlib с помощью следующих команд: sudo apt-get install build-essential python-dev python-numpy \ python-numpy-dev python-scipy libatlas-dev g++ python-matplotlib \ ipython Но когда я импортирую эти пакеты: from sklearn.cross_validation import train_test_split Это возвращает мне эту ошибку: ImportError: No module named …


10
Есть ли библиотечная функция для среднеквадратической ошибки (RMSE) в python?
Я знаю, что мог бы реализовать функцию среднеквадратичной ошибки следующим образом: def rmse(predictions, targets): return np.sqrt(((predictions - targets) ** 2).mean()) Что я ищу, если эта функция rmse реализована где-то в библиотеке, возможно, в scipy или scikit-learn?

21
Как извлечь правила принятия решений из дерева решений scikit-learn?
Могу ли я извлечь базовые правила принятия решений (или «пути принятия решений») из обученного дерева в дереве решений в виде текстового списка? Что-то вроде: if A>0.4 then if B<0.2 then if C>0.8 then class='X' Спасибо за вашу помощь.


10
RuntimeWarning: размер numpy.dtype изменен, может указывать на двоичную несовместимость
У меня есть эта ошибка при попытке загрузить сохраненную модель SVM. Я попытался удалить sklearn, NumPy и SciPy, заново установить все последние версии вместе (используя pip). Я все еще получаю эту ошибку. Зачем? In [1]: import sklearn; print sklearn.__version__ 0.18.1 In [3]: import numpy; print numpy.__version__ 1.11.2 In [5]: import …


5
Как разбить данные на 3 набора (тренировка, проверка и тестирование)?
У меня есть датафрейм pandas, и я хочу разделить его на 3 отдельных набора. Я знаю , что с помощью train_test_split из sklearn.cross_validation, можно разделить данные в двух сетах (поезд и тест). Тем не менее, я не смог найти никакого решения о разделении данных на три набора. Желательно, чтобы у …

6
масштабирование столбцов в пандах с помощью sklearn
У меня есть фреймворк pandas со столбцами смешанного типа, и я хотел бы применить min_max_scaler sklearn к некоторым столбцам. В идеале я хотел бы выполнить эти преобразования на месте, но еще не придумал, как это сделать. Я написал следующий код, который работает: import pandas as pd import numpy as np …

13
ошибка sklearn ValueError: входные данные содержат NaN, бесконечность или слишком большое значение для dtype ('float64')
Я использую sklearn, и у меня проблема с распространением сродства. Я построил матрицу ввода и продолжаю получать следующую ошибку. ValueError: Input contains NaN, infinity or a value too large for dtype('float64'). Я бежал np.isnan(mat.any()) #and gets False np.isfinite(mat.all()) #and gets True Я пробовал использовать mat[np.isfinite(mat) == True] = 0 чтобы …

3
Почему одна горячая кодировка улучшает производительность машинного обучения?
Я заметил, что когда кодирование One Hot используется для определенного набора данных (матрицы) и используется в качестве обучающих данных для алгоритмов обучения, оно дает значительно лучшие результаты в отношении точности предсказания по сравнению с использованием самой исходной матрицы в качестве обучающих данных. Как происходит это повышение производительности?

6
Как определяется feature_importances в RandomForestClassifier?
У меня есть задача классификации с временными рядами в качестве входных данных, где каждый атрибут (n = 23) представляет определенный момент времени. Помимо абсолютного результата классификации, хотелось бы узнать, какие атрибуты / даты в какой степени влияют на результат. Поэтому я просто использую тот feature_importances_, который мне подходит. Однако я …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.