Статистика и большие данные clustering

2

Кластеризация шумных данных или с выбросами

У меня есть шумные данные двух переменных, как это. x1 <- rep(seq(0,1, 0.1), each = 3000) set.seed(123) y1 <- rep (c(0.2, 0.8, 0.3, 0.9, 0.65, 0.35,0.7,0.1,0.25, 0.3, 0.95), each = 3000) set.seed(1234) e1 = rnorm(length(x1), 0.07,0.07) set.seed(1223) e2 = rnorm(length(x1), 0.07,0.07) set.seed(1334) yn <- rnorm(20000, 0.5,0.9) set.seed(2344) xn <- rnorm(20000, …

9 r machine-learning clustering

1

Формула формулы инерции в скиките учиться

Я хотел бы закодировать кластеризацию kmeans в python, используя pandas и scikit learn. Чтобы выбрать хороший k, я хотел бы закодировать статистику разрыва из Tibshirani и др. 2001 ( pdf ). Я хотел бы знать, могу ли я использовать результат inertia_ от scikit и адаптировать формулу статистики разрыва без необходимости …

9 clustering python k-means scikit-learn metric

3

Выбор кластеров для k-средних: случай 1 кластера

Кто-нибудь знает хороший метод, чтобы определить, подходит ли даже кластеризация с использованием kmeans? То есть, что если ваш образец на самом деле является однородным? Я знаю, что нечто вроде смешанной модели (через mclust в R) предоставит статистику соответствия для случая кластера 1: k, но, похоже, что для всех методов оценки …

9 r clustering k-means

5

Помогает ли предварительная кластеризация построить лучшую прогностическую модель?

Для задачи моделирования оттока я рассматривал: Вычислить k кластеров для данных Постройте k моделей для каждого кластера индивидуально. Основанием для этого является то, что нечего доказывать, что совокупность подписчиков однородна, поэтому разумно предположить, что процесс генерирования данных может быть различным для разных «групп». У меня вопрос, это подходящий метод? Это …

9 machine-learning clustering data-mining predictive-models

1

Как сравнить наблюдаемые и ожидаемые события?

Предположим, у меня есть одна выборка частот из 4 возможных событий: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 и у меня есть ожидаемые вероятности того, что мои события произойдут: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 С суммой наблюдаемых частот …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

7

Поиск 2D искусственных данных для демонстрации свойств алгоритмов кластеризации

Я ищу наборы данных 2-мерных точек данных (каждый пункт данных является вектором двух значений (x, y)) следующих разных распределений и форм. Код для генерации таких данных также будет полезен. Я хочу использовать их для построения / визуализации работы некоторых алгоритмов кластеризации. Вот некоторые примеры: звездные облачные данные четыре кластера, один …

9 distributions data-visualization clustering dataset

4

Как количественно определить, сгруппированы ли данные 1D вокруг 1 или 3 значений?

У меня есть некоторые данные о времени между ударами сердца человека. Одним из признаков эктопических (дополнительных) ударов является то, что эти интервалы сгруппированы вокруг трех значений вместо одного. Как я могу получить количественную меру этого? Я хочу сравнить несколько наборов данных, и эти две гистограммы по 100 бинов являются репрезентативными …

9 clustering

5

В чем разница между кластеризацией графов и методами обнаружения сообщества?

По сути, целью кластеризации графов и методов обнаружения сообщества является вычисление кластеров. Есть ли разница между ними?

9 clustering

2

Должно ли расстояние быть «метрикой», чтобы иерархическая кластеризация действовала на нем?

Допустим, мы определяем расстояние, которое не является метрикой , между N элементами. На основании этого расстояния мы затем используем агломерационную иерархическую кластеризацию . Можем ли мы использовать каждый из известных алгоритмов (одиночная / максимальная / средняя связь и т. Д.), Чтобы получить значимые результаты? Или, другими словами, в чем проблема …

9 clustering multilevel-analysis metric hierarchical-clustering

4

Кластеризация с асимметричными измерениями расстояния

Как кластеризовать объект с асимметричной мерой расстояния? Например, предположим, что вы кластеризуете набор данных с днями недели как функцией - расстояние от понедельника до пятницы не совпадает с расстоянием от пятницы до понедельника. Как вы включаете это в меру расстояния алгоритма кластеризации?

9 clustering distance

2

Плотностная пространственная кластеризация приложений с кластеризацией шума (DBSCAN) в R

Этот вопрос начинался как « Кластеризация пространственных данных в R », а теперь перешел к вопросу DBSCAN. Поскольку ответы на первый вопрос подсказали, я искал информацию о DBSCAN и прочитал несколько документов о. Новые вопросы возникли. DBSCAN требует некоторых параметров, одним из которых является «расстояние». Как мои данные являются трехмерными, …

9 r clustering spatial

3

Велоспорт в алгоритме k-средних

Согласно вики, наиболее широко используемый критерий конвергенции - «назначение не изменилось». Мне было интересно, может ли ехать на велосипеде, если мы используем такой критерий сходимости? Я был бы рад, если бы кто-то указал ссылку на статью, которая приводит пример езды на велосипеде или доказывает, что это невозможно.

9 clustering algorithms k-means

3

Компактная кластеризация

Большинство алгоритмов кластеризации, которые я видел, начинаются с создания расстояний между каждым из всех точек, что становится проблематичным для больших наборов данных. Есть тот, кто этого не делает? Или это какой-то частичный / приблизительный / ступенчатый подход? Какой алгоритм / реализация кластеризации занимает меньше O (n ^ 2) места? Есть …

9 clustering algorithms large-data

4

Как выполнить многократные тесты хи-квадрат после таблицы 2 на 3?

Мой набор данных состоит из общей смертности или выживания организма в трех типах участков: на берегу, в среднем и на расстоянии от берега. Цифры в таблице ниже представляют количество сайтов. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Я хотел бы знать, является ли количество …

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

2

Начало работы с бикластером

Я проводил некоторые случайные интернет-исследования бикластеров. (Я читал статью в вики несколько раз.) Пока что кажется, что существует несколько определений или стандартной терминологии. Мне было интересно, есть ли какие-нибудь стандартные документы или книги, которые должен прочитать любой, кто интересуется алгоритмами поиска бикластеров. Можно ли сказать, каков уровень техники в этой …

9 clustering data-mining

Вопросы с тегом «clustering»