Наука о данных clustering

2

Кластеризация уникальных посетителей по useragent, ip, session_id

С учетом данных о доступе веб-сайта в форме session_id, ip, user_agentи, при желании, отметки времени, в соответствии с приведенными ниже условиями, как бы вы наилучшим образом сгруппировали сеансы в уникальных посетителей? session_id: это идентификатор для каждого нового посетителя. Срок его действия не истекает, однако, если пользователь не принимает куки-файлы / …

15 clustering

2

Быстрый k-означает, как алгоритм для 10 ^ 10 баллов?

Я хочу сделать кластеризацию k-средних на множестве 10-мерных точек. Подвох: 10 ^ 10 баллов . Я ищу только центр и размер самых больших кластеров (скажем, от 10 до 100 кластеров); Меня не волнует, в каком кластере заканчивается каждая точка. Использование k-средних определенно не важно; Я просто ищу подобный эффект, любой …

14 clustering k-means

2

Использование атрибутов для классификации / кластеризации пользовательских профилей

У меня есть набор данных пользователей, покупающих продукты с веб-сайта. У меня есть следующие атрибуты: идентификатор пользователя, регион (штат) пользователя, идентификатор категории продукта, идентификатор ключевых слов продукта, идентификатор ключевых слов веб-сайта и объем продаж продукта. Цель состоит в том, чтобы использовать информацию о продукте и веб-сайте, чтобы идентифицировать пользователей, таких …

14 machine-learning data-mining classification clustering

1

Распознать грамматику в последовательности нечетких токенов

У меня есть текстовые документы, которые содержат в основном списки предметов. Каждый элемент представляет собой группу из нескольких токенов разных типов: FirstName, LastName, BirthDate, PhoneNumber, City, Occupation и т. Д. Маркер представляет собой группу слов. Предметы могут лежать на нескольких строках. Элементы из документа имеют примерно одинаковый синтаксис токена, но …

13 data-mining clustering text-mining time-series correlation

1

Классификация клиентов на основе 2 функций и временных рядов событий

Мне нужна помощь в том, что должно быть моим следующим шагом в алгоритме, который я разрабатываю. Из-за NDA я не могу раскрыть многое, но постараюсь быть обобщенным и понятным. В основном, после нескольких шагов в алгоритмах, у меня есть это: Для каждого имеющегося у меня клиента и событий, которые он …

12 classification clustering time-series

1

MinHashing vs SimHashing

Предположим, у меня есть пять наборов, которые я бы хотел сгруппировать. Я понимаю, что техника SimHashing описана здесь: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ может привести к трем кластерам ( {A}, {B,C,D}и {E}), например, если его результаты были: A -> h01 B -> h02 C -> h02 D -> h02 E -> h03 Точно так …

12 clustering similarity

1

Сколько ячеек LSTM я должен использовать?

Существуют ли какие-либо практические правила (или фактические правила), касающиеся минимального, максимального и «разумного» количества ячеек LSTM, которые я должен использовать? В частности, я имею в виду BasicLSTMCell из TensorFlow и num_unitsсвойства. Пожалуйста, предположите, что у меня есть проблема классификации, определяемая как: t - number of time steps n - length …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

1

Решения для непрерывной онлайн-идентификации кластеров?

Позвольте мне показать вам пример гипотетического приложения онлайн кластерной: В момент времени n точек 1,2,3,4 выделяются синему кластеру A, а точки b, 5,6,7 выделяются красному кластеру B. В момент времени n + 1 вводится новая точка a, которая назначается синему кластеру A, но также вызывает назначение точки b также синему …

11 machine-learning clustering

4

Использование кластеризации в обработке текста

Привет, это мой первый вопрос в стеке Data Science. Я хочу создать алгоритм классификации текста. Предположим, у меня есть большой набор текста и статей. Скажем, около 5000 простых текстов. Сначала я использую простую функцию, чтобы определить частоту всех четырех и выше символов слова. Затем я использую это как особенность каждого …

11 text-mining clustering

3

Лучшие языки для научных вычислений [закрыто]

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 5 лет назад . Похоже, что большинство языков имеют некоторое количество доступных библиотек научных вычислений. …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

1

Сходимость в методе К-средних Хартиган-Вонга и других алгоритмах

Я пытался понять различные алгоритмы кластеризации k-средних, которые в основном реализованы в statsпакете Rязыка. Я понимаю алгоритм Ллойда и онлайн-алгоритм МакКуина. Я понимаю их следующим образом: Алгоритм Ллойда: Первоначально выбираются случайные наблюдения «k», которые будут служить центроидами кластеров «k». Затем выполняются следующие шаги в итерации, пока центроиды не сходятся. Евклидово …

10 r clustering k-means

3

Анализ файла журнала: извлечение информационной части из части значения

Я пытаюсь создать набор данных из нескольких файлов журнала одного из наших продуктов. Различные файлы журналов имеют свой собственный макет и собственный контент; Я успешно сгруппировал их, остался всего один шаг ... Действительно, журнал «Сообщения» - лучшая информация. У меня нет исчерпывающего списка всех этих сообщений, и это плохая идея …

10 text-mining clustering

1

Кластеризация данных клиентов, хранящихся в ElasticSearch

У меня есть куча профилей клиентов, хранящихся в elasticsearchкластер. Эти профили теперь используются для создания целевых групп для наших подписок на электронную почту. Целевые группы в настоящее время формируются вручную с использованием возможностей поиска с использованием эластичного поиска (например, получить всех клиентов мужского пола в возрасте 23 лет с одним …

10 data-mining clustering

2

Кластеризация документов с использованием тем, полученных из скрытого распределения Дирихле

Я хочу использовать скрытое выделение дирихле для проекта, и я использую Python с библиотекой gensim. После нахождения тем я хотел бы кластеризовать документы, используя алгоритм, такой как k-means (в идеале я хотел бы использовать хороший для перекрывающихся кластеров, поэтому любая рекомендация приветствуется). Мне удалось получить темы, но они в форме: …

9 python clustering lda

4

Предложить наборы учебных текстовых классификаторов

Какие свободно доступные наборы данных я могу использовать для обучения текстового классификатора? Мы пытаемся повысить заинтересованность наших пользователей, порекомендовав для него наиболее связанный контент, поэтому мы подумали, что если мы классифицируем наш контент на основе заранее определенного набора слов, мы можем порекомендовать ему интересный контент, получив его отзыв о случайном …

9 machine-learning classification dataset clustering text-mining

Вопросы с тегом «clustering»