Статистика и большие данные clustering

3

Кластеризация вероятностных распределений - методы и метрики?

У меня есть несколько точек данных, каждая из которых содержит 5 векторов агломерированных дискретных результатов, результаты каждого вектора, сгенерированные различным распределением (конкретный вид, в котором я не уверен, мое лучшее предположение - Вейбулл, с параметром формы, изменяющимся где-то в пределах экспоненциальной степени) закон (от 1 до 0, примерно).) Я собираюсь …

13 distributions clustering feature-selection kolmogorov-smirnov k-means

2

Как расстояние Гауэра вычисляет разницу между двоичными переменными?

У меня есть 17 числовых и 5 двоичных (0-1) переменных, с 73 выборками в моем наборе данных. Мне нужно запустить кластерный анализ. Я знаю, что расстояние Гауэра является хорошим показателем для наборов данных со смешанными переменными. Однако я не мог понять, как расстояние Гауэра рассчитывает разницу между двоичными переменными . …

13 clustering distance mixed-type-data

1

К средних || aka Scalable K-Means ++

Бахман Бахмани и соавт. представил k-means ||, который является более быстрой версией k-means ++. Этот алгоритм взят из страницы 4 их работы , Бахмани Б., Мозли Б., Ваттани А., Кумар Р. и Васильвицкий С. (2012). Масштабируемое k-означает ++. Труды фонда VLDB , 5 (7), 622-633. К сожалению, я не понимаю …

12 clustering k-means

5

Как выполнить вменение значений в очень большом количестве точек данных?

У меня очень большой набор данных и около 5% случайных значений отсутствуют. Эти переменные связаны друг с другом. В следующем примере набор данных R - просто игрушечный пример с фиктивными коррелированными данными. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

4

Можете ли вы сравнить различные методы кластеризации в наборе данных без какой-либо базовой правды путем перекрестной проверки?

В настоящее время я пытаюсь проанализировать набор данных текстового документа, который не имеет основательной правды. Мне сказали, что вы можете использовать k-кратную перекрестную проверку для сравнения различных методов кластеризации. Однако примеры, которые я видел в прошлом, используют основную правду. Есть ли способ использовать средства K-Fold в этом наборе данных для …

12 machine-learning clustering cross-validation unsupervised-learning

5

Могу ли я использовать PCA для выбора переменных для кластерного анализа?

Я должен уменьшить количество переменных, чтобы провести кластерный анализ. Мои переменные сильно коррелированы, поэтому я подумал о проведении анализа факторов риска PCA (анализ основных компонентов). Однако, если я использую полученные результаты, мои кластеры не совсем корректны (по сравнению с предыдущими классификациями в литературе). Вопрос: Могу ли я использовать матрицу вращения …

12 clustering pca feature-selection factor-analysis

2

Кластеризация пространственных данных в R

У меня есть набор месячных данных о температуре поверхности моря (SST), и я хочу применить некоторую кластерную методологию для обнаружения регионов с подобными закономерностями SST. У меня есть набор ежемесячных файлов данных, работающих с 1985 по 2009 год, и я хочу применить кластеризацию к каждому месяцу в качестве первого шага. …

12 r clustering spatial

6

Я работаю над небольшим (200 МБ) корпусом текста, который я хочу изучить с помощью некоторого кластерного анализа. Какие книги или статьи на эту тему вы бы порекомендовали?

12 machine-learning references clustering

1

Точный критерий Фишера и гипергеометрическое распределение

Я хотел лучше понять точный критерий Фишера, поэтому я разработал следующий пример игрушки, где f и m соответствуют мужской и женской части, а n и y соответствуют «потреблению соды», например: > soda_gender f m n 0 5 y 5 0 Очевидно, это резкое упрощение, но я не хотел, чтобы контекст …

12 fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

2

Интерпретация результата кластеризации k-средних в R

Я использовал kmeansинструкцию R для выполнения алгоритма k-средних в наборе данных радужной оболочки глаза Андерсона. У меня есть вопрос о некоторых параметрах, которые я получил. Результаты: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 В этом случае, что означает «Кластер означает»? Это среднее расстояние всех объектов в …

12 r machine-learning clustering interpretation k-means

1

Робастный кластерный метод для смешанных данных в R

Я рассчитываю на кластеризацию небольшого набора данных (64 наблюдения 4-х интервальных переменных и одной трехфакторной категориальной переменной). Теперь я довольно новичок в кластерном анализе, но я знаю, что был значительный прогресс со времен, когда иерархическая кластеризация или k-средних были единственными доступными вариантами. В частности, кажется, что доступны новые методы кластеризации …

12 clustering model-based-clustering mixed-type-data

3

Как я могу проверить, насколько важна моя кластеризация двоичных данных?

Я делаю анализ корзины покупок, мой набор данных - это набор векторов транзакций с товарами, которые покупаются. Применяя к транзакциям k-means, я всегда получаю некоторый результат. Случайная матрица, вероятно, также показала бы некоторые кластеры. Есть ли способ проверить, является ли кластеризация, которую я нахожу, значительной, или это может быть очень …

12 clustering statistical-significance binary-data

1

Присвоить веса переменным в кластерном анализе

Я хочу назначить разные веса переменным в моем кластерном анализе, но моя программа (Stata), похоже, не имеет возможности для этого, поэтому мне нужно сделать это вручную. Представьте себе 4 переменные A, B, C, D. Веса для этих переменных должны быть w(A)=50% w(B)=25% w(C)=10% w(D)=15% Мне интересно, действительно ли один из …

12 clustering stata

1

Что делать, если выборочная ковариационная матрица не обратима?

Я работаю над некоторыми методами кластеризации, где для данного кластера векторов d-размерности я предполагаю многомерное нормальное распределение и вычисляю выборочный средний вектор d-размерности и выборочную ковариационную матрицу. Затем, пытаясь решить, принадлежит ли новый, невидимый, d-мерный вектор этому кластеру, я проверяю его расстояние с помощью этой меры: (Xi−μ^X)′σ^−1X(Xi−μ^X)>B0.95(p2,−p2)(Xi−μ^X)′σ^X−1(Xi−μ^X)>B0.95(p2,−p2)\left(X_i-\hat{\mu}_X\right)'\hat{\sigma}_X^{-1}\left(X_i-\hat{\mu}_X\right)>B_{0.95}\left(\frac{p}{2},\frac{-p}{2}\right) Что требует от …

12 clustering multivariate-analysis covariance covariance-matrix matrix-inverse

2

Как я узнаю, что мой алгоритм кластеризации k-средних страдает проклятием размерности?

Я считаю, что название этого вопроса говорит само за себя.

12 clustering k-means high-dimensional

Вопросы с тегом «clustering»