Вопросы с тегом «clustering»

Кластерный анализ или кластеризация - это задача группирования набора объектов таким образом, чтобы объекты в одной группе (называемой кластером) были более похожи (в некотором смысле или другом) друг на друга, чем на объекты в других группах (кластерах). , Это основная задача интеллектуального анализа данных и общий метод статистического анализа данных, используемый во многих областях, включая машинное обучение, распознавание образов, анализ изображений, поиск информации и т. Д.

2
Кластеризация уникальных посетителей по useragent, ip, session_id
С учетом данных о доступе веб-сайта в форме session_id, ip, user_agentи, при желании, отметки времени, в соответствии с приведенными ниже условиями, как бы вы наилучшим образом сгруппировали сеансы в уникальных посетителей? session_id: это идентификатор для каждого нового посетителя. Срок его действия не истекает, однако, если пользователь не принимает куки-файлы / …
15 clustering 

2
Быстрый k-означает, как алгоритм для 10 ^ 10 баллов?
Я хочу сделать кластеризацию k-средних на множестве 10-мерных точек. Подвох: 10 ^ 10 баллов . Я ищу только центр и размер самых больших кластеров (скажем, от 10 до 100 кластеров); Меня не волнует, в каком кластере заканчивается каждая точка. Использование k-средних определенно не важно; Я просто ищу подобный эффект, любой …

2
Использование атрибутов для классификации / кластеризации пользовательских профилей
У меня есть набор данных пользователей, покупающих продукты с веб-сайта. У меня есть следующие атрибуты: идентификатор пользователя, регион (штат) пользователя, идентификатор категории продукта, идентификатор ключевых слов продукта, идентификатор ключевых слов веб-сайта и объем продаж продукта. Цель состоит в том, чтобы использовать информацию о продукте и веб-сайте, чтобы идентифицировать пользователей, таких …

1
Распознать грамматику в последовательности нечетких токенов
У меня есть текстовые документы, которые содержат в основном списки предметов. Каждый элемент представляет собой группу из нескольких токенов разных типов: FirstName, LastName, BirthDate, PhoneNumber, City, Occupation и т. Д. Маркер представляет собой группу слов. Предметы могут лежать на нескольких строках. Элементы из документа имеют примерно одинаковый синтаксис токена, но …

1
Классификация клиентов на основе 2 функций и временных рядов событий
Мне нужна помощь в том, что должно быть моим следующим шагом в алгоритме, который я разрабатываю. Из-за NDA я не могу раскрыть многое, но постараюсь быть обобщенным и понятным. В основном, после нескольких шагов в алгоритмах, у меня есть это: Для каждого имеющегося у меня клиента и событий, которые он …

1
MinHashing vs SimHashing
Предположим, у меня есть пять наборов, которые я бы хотел сгруппировать. Я понимаю, что техника SimHashing описана здесь: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ может привести к трем кластерам ( {A}, {B,C,D}и {E}), например, если его результаты были: A -> h01 B -> h02 C -> h02 D -> h02 E -> h03 Точно так …

1
Сколько ячеек LSTM я должен использовать?
Существуют ли какие-либо практические правила (или фактические правила), касающиеся минимального, максимального и «разумного» количества ячеек LSTM, которые я должен использовать? В частности, я имею в виду BasicLSTMCell из TensorFlow и num_unitsсвойства. Пожалуйста, предположите, что у меня есть проблема классификации, определяемая как: t - number of time steps n - length …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

1
Решения для непрерывной онлайн-идентификации кластеров?
Позвольте мне показать вам пример гипотетического приложения онлайн кластерной: В момент времени n точек 1,2,3,4 выделяются синему кластеру A, а точки b, 5,6,7 выделяются красному кластеру B. В момент времени n + 1 вводится новая точка a, которая назначается синему кластеру A, но также вызывает назначение точки b также синему …

4
Использование кластеризации в обработке текста
Привет, это мой первый вопрос в стеке Data Science. Я хочу создать алгоритм классификации текста. Предположим, у меня есть большой набор текста и статей. Скажем, около 5000 простых текстов. Сначала я использую простую функцию, чтобы определить частоту всех четырех и выше символов слова. Затем я использую это как особенность каждого …

3
Лучшие языки для научных вычислений [закрыто]
Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 5 лет назад . Похоже, что большинство языков имеют некоторое количество доступных библиотек научных вычислений. …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

1
Сходимость в методе К-средних Хартиган-Вонга и других алгоритмах
Я пытался понять различные алгоритмы кластеризации k-средних, которые в основном реализованы в statsпакете Rязыка. Я понимаю алгоритм Ллойда и онлайн-алгоритм МакКуина. Я понимаю их следующим образом: Алгоритм Ллойда: Первоначально выбираются случайные наблюдения «k», которые будут служить центроидами кластеров «k». Затем выполняются следующие шаги в итерации, пока центроиды не сходятся. Евклидово …
10 r  clustering  k-means 

3
Анализ файла журнала: извлечение информационной части из части значения
Я пытаюсь создать набор данных из нескольких файлов журнала одного из наших продуктов. Различные файлы журналов имеют свой собственный макет и собственный контент; Я успешно сгруппировал их, остался всего один шаг ... Действительно, журнал «Сообщения» - лучшая информация. У меня нет исчерпывающего списка всех этих сообщений, и это плохая идея …

1
Кластеризация данных клиентов, хранящихся в ElasticSearch
У меня есть куча профилей клиентов, хранящихся в elasticsearchкластер. Эти профили теперь используются для создания целевых групп для наших подписок на электронную почту. Целевые группы в настоящее время формируются вручную с использованием возможностей поиска с использованием эластичного поиска (например, получить всех клиентов мужского пола в возрасте 23 лет с одним …

2
Кластеризация документов с использованием тем, полученных из скрытого распределения Дирихле
Я хочу использовать скрытое выделение дирихле для проекта, и я использую Python с библиотекой gensim. После нахождения тем я хотел бы кластеризовать документы, используя алгоритм, такой как k-means (в идеале я хотел бы использовать хороший для перекрывающихся кластеров, поэтому любая рекомендация приветствуется). Мне удалось получить темы, но они в форме: …

4
Предложить наборы учебных текстовых классификаторов
Какие свободно доступные наборы данных я могу использовать для обучения текстового классификатора? Мы пытаемся повысить заинтересованность наших пользователей, порекомендовав для него наиболее связанный контент, поэтому мы подумали, что если мы классифицируем наш контент на основе заранее определенного набора слов, мы можем порекомендовать ему интересный контент, получив его отзыв о случайном …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.