Вопросы с тегом «data-mining»

Деятельность, которая ищет шаблоны в больших, сложных наборах данных. Обычно в нем делается акцент на алгоритмических методах, но может также использоваться любой набор связанных навыков, приложений или методологий с этой целью.

4
K-means: Какие есть хорошие способы выбрать эффективный набор начальных центроидов?
Когда используется случайная инициализация центроидов, разные прогоны K-средних дают разные общие SSE. И это имеет решающее значение в производительности алгоритма. Каковы некоторые эффективные подходы к решению этой проблемы? Недавние подходы приветствуются.

3
Одноклассная дискриминационная классификация с несбалансированным, гетерогенным отрицательным фоном?
Я работаю над улучшением существующего контролируемого классификатора, чтобы классифицировать последовательности {белка} как принадлежащие к определенному классу (предшественники нейропептидных гормонов) или нет. Существует около 1150 известных «позитивов» на фоне около 13 миллионов белковых последовательностей («Неизвестный / плохо аннотированный фон») или около 100 000 проверенных релевантных белков, аннотированных различными свойствами (но очень …

5
сделать морскую карту тепла больше
Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера тепловой карты?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

2
Разница в рекомендациях, основанных на предметах и ​​пользователях в Mahout
Я хотел бы знать, насколько точно рекомендации пользователей и продуктов отличаются друг от друга. Это определяет, что На основе пользователя : Рекомендовать элементы путем поиска похожих пользователей. Это часто сложнее масштабировать из-за динамического характера пользователей. На основе предметов: Рассчитать сходство между предметами и дать рекомендации. Элементы обычно не сильно меняются, …

4
Дерево решений против KNN
В каких случаях лучше использовать дерево решений, а в других случаях - KNN? Зачем использовать один из них в определенных случаях? А другие в разных случаях? (Глядя на его функциональность, а не на алгоритм) У кого-нибудь есть объяснения или ссылки по этому поводу?

3
Почему ансамбли так неоправданно эффективны?
Кажется, стало аксиоматичным, что ансамбль учащихся приводит к наилучшим возможным результатам модели - и это становится все более редким, например, для отдельных моделей, чтобы выиграть соревнования, такие как Kaggle. Есть ли теоретическое объяснение, почему ансамбли так чертовски эффективны?

2
Использование атрибутов для классификации / кластеризации пользовательских профилей
У меня есть набор данных пользователей, покупающих продукты с веб-сайта. У меня есть следующие атрибуты: идентификатор пользователя, регион (штат) пользователя, идентификатор категории продукта, идентификатор ключевых слов продукта, идентификатор ключевых слов веб-сайта и объем продаж продукта. Цель состоит в том, чтобы использовать информацию о продукте и веб-сайте, чтобы идентифицировать пользователей, таких …

1
Распознать грамматику в последовательности нечетких токенов
У меня есть текстовые документы, которые содержат в основном списки предметов. Каждый элемент представляет собой группу из нескольких токенов разных типов: FirstName, LastName, BirthDate, PhoneNumber, City, Occupation и т. Д. Маркер представляет собой группу слов. Предметы могут лежать на нескольких строках. Элементы из документа имеют примерно одинаковый синтаксис токена, но …

1
Neo4j против OrientDB против Титана
Я работаю над научно-исследовательским проектом, связанным с анализом социальных отношений, и мне нужно хранить данные в некоторых графовых базах данных. Изначально я выбрал Neo4j в качестве базы данных. Но швы Neo4j плохо масштабируются. Альтернатива, которую я обнаружил, это Titan и oriebtDB. Я провел это сравнение этих трех баз данных, но …

4
Пример больших данных или пример использования
Я читал много блогов \ статей о том, как разные типы отраслей используют Big Data Analytic. Но в большинстве этих статей не упоминается Какие данные эти компании использовали. Каков был размер данных Какие инструменты технологий они использовали для обработки данных В чем заключалась проблема, с которой они столкнулись, и как …

1
В чем разница между одной горячей кодировкой и одной внешней кодировкой?
Я читаю презентацию, и она рекомендует не использовать кодировку "оставь один", но с одной горячей кодировкой все в порядке. Я думал, что они оба были одинаковыми. Кто-нибудь может описать, в чем различия между ними?

2
Есть ли какие-либо API для сканирования рефератов?
Если у меня есть очень длинный список названий статей, как я могу получить эти документы из Интернета или из какой-либо базы данных? Названия статей похожи на «Оценка полезности в веб-майнинге для сферы общественного здравоохранения». Кто-нибудь знает API, который может дать мне решение? Я попытался отсканировать Google ученый, однако Google заблокировал …

2
Тарифы авиакомпаний - Какой анализ следует использовать для выявления конкурентного поведения при установлении цен и ценовых корреляций?
Я хочу исследовать поведение авиакомпаний в отношении ценообразования - особенно то, как авиакомпании реагируют на ценообразование конкурентов. Как я сказал бы, мои знания о более сложном анализе довольно ограничены, я использовал в основном все основные методы для сбора общего представления о данных. Это включает в себя простые графики, которые уже …

2
Является ли FPGrowth по-прежнему «современным» в частом поиске паттернов?
Насколько мне известно, разработка алгоритмов для решения проблемы Frequen Pattern Mining (FPM), путь улучшения имеет несколько основных контрольных точек. Во-первых, алгоритм Apriori был предложен в 1993 году Agrawal et al. наряду с формализацией проблемы. Алгоритм был в состоянии убрать некоторые наборы из 2^n - 1наборов (powerset), используя решетку для поддержки …

3
Существуют ли хорошие готовые языковые модели для Python?
Я создаю прототип приложения и мне нужна языковая модель для вычисления недоумения в некоторых сгенерированных предложениях. Есть ли в Python обученная языковая модель, которую я могу легко использовать? Что-то простое, как model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.