Вопросы с тегом «python»

Используйте для данных науки вопросы, связанные с языком программирования Python. Не предназначен для общих вопросов кодирования (-> stackoverflow).

2
Рекомендовать фильмы с дополнительными функциями, используя совместную фильтрацию
Я пытаюсь построить систему рекомендаций, используя совместную фильтрацию. У меня есть обычная [user, movie, rating]информация. Я хотел бы включить дополнительную функцию, такую ​​как «язык» или «продолжительность фильма». Я не уверен, какие методы я мог бы использовать для такой проблемы. Пожалуйста, предложите ссылки или пакеты в Python / R.


3
Одноклассная дискриминационная классификация с несбалансированным, гетерогенным отрицательным фоном?
Я работаю над улучшением существующего контролируемого классификатора, чтобы классифицировать последовательности {белка} как принадлежащие к определенному классу (предшественники нейропептидных гормонов) или нет. Существует около 1150 известных «позитивов» на фоне около 13 миллионов белковых последовательностей («Неизвестный / плохо аннотированный фон») или около 100 000 проверенных релевантных белков, аннотированных различными свойствами (но очень …

6
В чем причина лог-преобразования нескольких непрерывных переменных?
Я занимался проблемой классификации, и я читал код и учебные пособия многих людей. Одна вещь, которую я заметил, это то, что многие люди принимают np.logили logнепрерывные переменные, такие как loan_amountили applicant_incomeт. Я просто хочу понять причину этого. Помогает ли это улучшить точность прогнозирования нашей модели? Это обязательно? или есть какая-то …

5
сделать морскую карту тепла больше
Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера тепловой карты?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

3
Как получить прогнозы с помощьюgnast_generator для потоковых тестовых данных в Keras?
В блоге Keras, посвященном обучению пользователей с нуля , код показывает только сеть, работающую с данными обучения и проверки. Как насчет тестовых данных? Являются ли данные проверки такими же, как данные испытаний (я думаю, что нет). Если в строках, похожих на папки с поездами и валидацией, была отдельная папка с …

4
Панды теперь быстрее, чем data.table?
https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Тесты data.table не обновлялись с 2014 года. Я слышал где-то, что Pandasсейчас быстрее, чем data.table. Это правда? Кто-нибудь делал какие-либо тесты? Я никогда не использовал Python раньше, но подумал бы о переключении, если pandasможет победить data.table?
16 python  r  pandas  data  data.table 

5
Библиотека Python для реализации скрытых марковских моделей
Какую стабильную библиотеку Python я могу использовать для реализации скрытых марковских моделей? Мне нужно, чтобы это было достаточно хорошо задокументировано, потому что я никогда раньше не использовал эту модель. В качестве альтернативы, есть ли более прямой подход к выполнению анализа временных рядов на наборе данных с использованием HMM?

5
Предсказание сходства предложений
Я пытаюсь решить следующую проблему: у меня есть набор предложений в качестве моего набора данных, и я хочу иметь возможность набрать новое предложение и найти предложение, которое новое наиболее похоже в наборе данных. Пример будет выглядеть так: Новое предложение: " I opened a new mailbox" Прогноз на основе набора данных: …

2
Почему переменные данных обучения и испытаний определяются с использованием заглавной буквы (в Python)?
Я надеюсь, что этот вопрос является наиболее подходящим на этом сайте ... В Python обычно имя класса определяется с использованием заглавной буквы в качестве первого символа, например class Vehicle: ... Однако в области машинного обучения часто данные обучения и испытаний определяются как Xи Y- не xи y. Например, я сейчас …
15 python  dataset 

2
Как работает SelectKBest?
Я смотрю на этот учебник: https://www.dataquest.io/mission/75/improving-your-submission В разделе 8, найдя лучшие функции, он показывает следующий код. import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked", "FamilySize", "Title", "FamilyId"] # Perform feature selection selector = SelectKBest(f_classif, k=5) selector.fit(titanic[predictors], titanic["Survived"]) # Get the …

1
Нужна ли стратифицированная выборка (случайный лес, Python)?
Я использую Python для запуска модели случайного леса на моем несбалансированном наборе данных (целевой переменной был двоичный класс). Разделяя набор данных обучения и тестирования, я боролся, использовать ли стратифицированную выборку (как показано в коде) или нет. До сих пор я наблюдал в своем проекте, что стратифицированный случай приведет к более …

2
Модель двоичной классификации для несбалансированных данных
У меня есть набор данных со следующими спецификациями: Учебный набор данных с 193 176 пробами с 2821 положительным результатом Тестовый набор данных с 82 887 образцами с 673 положительными Есть 10 функций. Я хочу выполнить двоичную классификацию (0 или 1). Проблема, с которой я сталкиваюсь, заключается в том, что данные …

5
Делают ли современные библиотеки R и / или Python SQL устаревшим?
Я работаю в офисе, где SQL Server является основой всего, что мы делаем, от обработки данных до очистки. Мой коллега специализируется на написании сложных функций и хранимых процедур для методической обработки входящих данных, чтобы их можно было стандартизировать и использовать в проектах отчетов, визуализаций и аналитики. До начала работы у …
14 python  r  data-cleaning  data  sql 

4
Как инициализировать новую модель word2vec с предварительно подготовленными весами модели?
Я использую Gensim Library в Python для использования и обучения модели word2vector. Недавно я смотрел на инициализацию весов моей модели с помощью некоторой предварительно обученной модели word2vec, такой как (предварительно обученная модель GoogleNewDataset). Я боролся с этим пару недель. Теперь я только что выяснил, что в gesim есть функция, которая …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.