Вопросы с тегом «scikit-learn»

Scikit-learn - это модуль Python, включающий простой и эффективный инструмент для машинного обучения, интеллектуального анализа данных и анализа данных. Он построен на NumPy, SciPy и matplotlib. Распространяется под лицензией BSD с 3 пунктами.

2
Эффективное уменьшение размерности для большого набора данных
У меня есть набор данных с ~ 1M строк и ~ 500K разреженных объектов. Я хочу уменьшить размерность до порядка 1K-5K плотных объектов. sklearn.decomposition.PCAне работает с разреженными данными, и я пытался использовать, sklearn.decomposition.TruncatedSVDно получаю ошибку памяти довольно быстро. Каковы мои варианты эффективного уменьшения размерности в этом масштабе?

3
Существуют ли хорошие готовые языковые модели для Python?
Я создаю прототип приложения и мне нужна языковая модель для вычисления недоумения в некоторых сгенерированных предложениях. Есть ли в Python обученная языковая модель, которую я могу легко использовать? Что-то простое, как model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

1
Как использовать Scikit-Learn Label Propagation для структурированных графиков данных?
В рамках моего исследования я заинтересован в распространении меток на графике. Меня особенно интересуют эти два метода: Сяоцзинь Чжу и Зубин Гахрамани. Обучение на помеченных и немаркированных данных с распространением меток. Технический отчет CMU-CALD-02-107, Университет Карнеги-Меллона, 2002 г. http://pages.cs.wisc.edu/~jerryzhu/pub/CMU-CALD-02-107.pdf Денйонг Чжоу, Оливье Буске, Томас Навин Лал, Джейсон Уэстон, Бернхард Шоелкопф. …

3
В чем разница между векторизатором хеширования и векторизатором tfidf?
Я конвертирую корпус текстовых документов в векторы слов для каждого документа. Я пробовал это с помощью TfidfVectorizer и HashingVectorizer Я понимаю, что HashingVectorizerа не принимает во внимание IDFоценки, как TfidfVectorizerделает. Причина, по которой я все еще работаю с, HashingVectorizerзаключается в гибкости, которую он дает при работе с огромными наборами данных, …

1
Параметр scikit-learn n_jobs об использовании процессора и памяти
В большинстве оценок в scikit-learn в n_jobsпараметре fit/ predictmethod есть параметр для создания параллельных заданий с использованием joblib. Я заметил, что его установка -1создает всего 1 процесс Python и максимально увеличивает количество ядер, в результате чего загрузка ЦП достигает 2500% сверху. Это сильно отличается от установки некоторого положительного целого числа> …

3
Лучшие языки для научных вычислений [закрыто]
Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 5 лет назад . Похоже, что большинство языков имеют некоторое количество доступных библиотек научных вычислений. …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
Как закодировать класс с 24 000 категорий?
В настоящее время я работаю над моделью логистической регрессии для геномики. Одно из полей ввода, которое я хочу включить как ковариату, это genes. Существует около 24 000 известных генов. Существует много особенностей с таким уровнем изменчивости в вычислительной биологии, и необходимы сотни тысяч образцов. Если я LabelEncoder()эти 24K гены а …

3
Предсказать лучшее время звонка
У меня есть набор данных, включающий набор клиентов в разных городах Калифорнии, время вызова для каждого клиента и статус вызова (True, если клиент отвечает на вызов, и False, если клиент не отвечает). Я должен найти подходящее время звонка для будущих клиентов, так что вероятность ответа на звонок высока. Итак, какова …

3
Построение модели машинного обучения для прогнозирования урожайности на основе экологических данных
У меня есть набор данных, содержащий данные о температуре, количестве осадков и урожайности сои для фермы за 10 лет (2005 - 2014). Я хотел бы прогнозировать урожайность на 2015 год на основе этих данных. Обратите внимание, что набор данных имеет ЕЖЕДНЕВНЫЕ значения для температуры и осадков, но только 1 значение …

2
Сколько времени занимают классификаторы scikit, чтобы классифицировать?
Я планирую использовать классификатор линейных опорных векторов (SVM) Scikit для классификации текста в корпусе, состоящем из 1 миллиона помеченных документов. Я планирую сделать следующее: когда пользователь вводит какое-либо ключевое слово, классификатор сначала классифицирует его по категории, а затем в документах этой категории будет выполняться последующий запрос на получение информации. У …

1
Несбалансированные данные, приводящие к неправильной классификации в мультиклассовом наборе данных
Я работаю над классификацией текста, где у меня 39 категорий / классов и 8,5 миллионов записей. (В дальнейшем данные и категории будут увеличиваться). Структура или формат моих данных выглядит следующим образом. ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | Color:black,Display Size:5.5 inch,Internal | 211 Storage:128 …

4
Интерпретация дерева решений в контексте важности функций
Я пытаюсь понять, как полностью понять процесс принятия решений модели классификации дерева решений, построенной с использованием sklearn. Два основных аспекта, на которые я смотрю, - это графическое представление дерева и список важных функций. Что я не понимаю, так это то, как важность функции определяется в контексте дерева. Например, вот мой …

3
Экспорт весов (формула) из Случайного Лесного Регрессора в Scikit-Learn
Я обучил модель прогнозирования с помощью Scikit Learn на Python (Random Forest Regressor) и хочу каким-то образом извлечь вес каждой функции, чтобы создать превосходный инструмент для ручного прогнозирования. Единственное, что я нашел, - model.feature_importances_но это не помогает. Есть ли способ добиться этого? def performRandomForest(X_train, y_train, X_test, y_test): '''Perform Random Forest …

1
Выбор функции для опорных векторных машин
Мой вопрос в три раза В контексте «Kernelized» поддержка векторных машин Желателен ли выбор переменной / функции - тем более, что мы упорядочиваем параметр C, чтобы предотвратить переоснащение, и основной причиной внедрения ядер в SVM является увеличение размерности проблемы, в таком случае уменьшение размеров за счет уменьшения параметров кажется нелогичным …

2
Есть ли метод, противоположный уменьшению размерности?
Я новичок в области машинного обучения, но сделал свою долю обработки сигналов. Пожалуйста, дайте мне знать, если этот вопрос был неправильно маркирован. У меня есть двумерные данные, которые определяются как минимум тремя переменными, а модель с сильно нелинейной моделью слишком сложна для моделирования. У меня был разный уровень успеха при …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.