Вопросы с тегом «clustering»

Кластерный анализ - это задача разделения данных на подмножества объектов в соответствии с их взаимным «сходством» без использования уже существующих знаний, таких как метки классов. [Кластерные стандартные ошибки и / или кластерные выборки должны быть помечены как таковые; НЕ используйте для них тег кластеризации.]

2
Обнаружение схем мошенничества на экзамене с несколькими вопросами
ВОПРОС: У меня есть двоичные данные по экзаменационным вопросам (правильно / неправильно). Некоторые люди могли иметь предварительный доступ к подмножеству вопросов и их правильных ответов. Я не знаю кто, сколько или какой. Если бы обмана не было, предположим, что я бы смоделировал вероятность правильного ответа для элемента как , где …

5
Процедура кластеризации, где каждый кластер имеет равное количество точек?
У меня есть несколько точек в R p , и я хочу сгруппировать точки так, чтобы:Икс= { х1, . , , , хN}Иксзнак равно{Икс1,,,,,ИксN}X=\{x_1,...,x_n\}рпрпR^p Каждый кластер содержит равное количество элементов . (Предположим, что число кластеров делит n .)ИксИксXNNn Каждый кластер в некотором смысле является «пространственно связным», как кластеры из средних.ККk …

3
Определить различные кластеры 1d данных из базы данных
У меня есть таблица базы данных передачи данных между различными узлами. Это огромная база данных (около 40 миллионов переводов). Одним из атрибутов является количество байтов (nbytes), которые варьируются от 0 до 2 терабайт. Я хотел бы кластеризовать n-байты так, чтобы при заданных k кластерах некоторые передачи x1 принадлежали кластеру k1, …

3
Следует ли считать уменьшение размерности для визуализации «закрытой» проблемой, решаемой с помощью t-SNE?
Я много читал об алгоритме sne для уменьшения размерности. Я очень впечатлен производительностью на «классических» наборах данных, таких как MNIST, где достигается четкое разделение цифр ( см. Оригинальную статью ):Ttt Я также использовал его, чтобы визуализировать функции, которым научилась нейронная сеть, которую я тренирую, и я был очень доволен результатами. …

2
Кластеризация переменных на основе корреляций между ними
Вопросов: У меня большая корреляционная матрица. Вместо того, чтобы кластеризовать отдельные корреляции, я хочу кластеризовать переменные на основе их корреляций друг с другом, т. Е. Если переменная A и переменная B имеют схожие корреляции с переменными C-Z, то A и B должны быть частью одного кластера. Хороший реальный пример этого …

1
Использование корреляции в качестве метрики расстояния (для иерархической кластеризации)
Я хотел бы иерархически кластеризовать свои данные, но вместо евклидова расстояния я хотел бы использовать корреляцию. Кроме того, поскольку коэффициент корреляции варьируется от -1 до 1, причем оба значения -1 и 1 обозначают «совместное регулирование» в моем исследовании, я отношусь к обоим -1 и 1 как к d = 0. …

3
Контролируемая кластеризация или классификация?
Второй вопрос заключается в том, что я обнаружил, что где-то в сети обсуждалась «контролируемая кластеризация», насколько я знаю, кластеризация не контролируется, так что именно означает «контролируемая кластеризация»? В чем разница с «классификацией»? Об этом много ссылок: http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf так далее ...

2
Кластеризация двоичной матрицы
У меня есть полумаленькая матрица двоичных объектов размером 250k x 100. Каждая строка является пользователем, а столбцы представляют собой двоичные «теги» некоторого поведения пользователя, например «likes_cats». user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 0 C 1 0 0 …

8
Выполнять K-средние (или их близкие родственники) кластеризацию только с матрицей расстояний, а не с данными по точкам
Я хочу выполнить кластеризацию K-средних на имеющихся у меня объектах, но объекты не описываются как точки в пространстве, то есть objects x featuresнабором данных. Тем не менее, я могу вычислить расстояние между любыми двумя объектами (оно основано на функции подобия). Итак, я избавляюсь от матрицы расстояний objects x objects. Я …

2
Как кластеризовать временные ряды?
У меня вопрос по кластерному анализу. Есть 3000 компаний, которые должны быть сгруппированы в соответствии с их потреблением энергии в течение 5 лет. Каждая компания имеет значения для каждого часа в течение 5 лет. Я хотел бы выяснить, имеют ли некоторые компании одинаковую структуру в зависимости от времени использования. Результаты …

2
Сравнение кластеров: индекс Рэнда и вариация информации
Мне было интересно, есть ли у кого-нибудь понимание или интуиция, стоящие за разницей между вариацией информации и индексом Рэнда для сравнения кластеризаций. Я прочитал статью Марины Мелии « Сравнение кластеризаций - расстояние, основанное на информации » (Журнал многомерного анализа, 2007), но, кроме того, что я заметил разницу в определениях, я …

4
Почему смешанные данные являются проблемой для евклидовых алгоритмов кластеризации?
Большинство классических алгоритмов кластеризации и уменьшения размерности (иерархическая кластеризация, анализ главных компонентов, k-средних, самоорганизующиеся карты ...) разработаны специально для числовых данных, а их входные данные рассматриваются как точки в евклидовом пространстве. Это, конечно, проблема, поскольку многие вопросы реального мира включают в себя данные, которые смешаны: например, если мы изучаем автобусы, …

2
Если кластеризация k-средних является формой моделирования гауссовой смеси, можно ли ее использовать, когда данные не являются нормальными?
Я читаю Бишопа об алгоритме EM для GMM и взаимосвязи между GMM и k-means. В этой книге говорится, что k-means - это жестко заданная версия GMM. Мне интересно, означает ли это, что если данные, которые я пытаюсь кластеризовать, не являются гауссовыми, я не могу использовать k-means (или, по крайней мере, …

4
Как спроецировать новый вектор на пространство PCA?
После выполнения анализа главных компонентов (PCA) я хочу спроецировать новый вектор на пространство PCA (т.е. найти его координаты в системе координат PCA). Я рассчитал PCA на языке R, используя prcomp. Теперь я должен быть в состоянии умножить свой вектор на матрицу вращения PCA. Должны ли главные компоненты в этой матрице …
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

4
Существует ли алгоритм в виде дерева решений для неконтролируемой кластеризации?
У меня есть набор данных, состоящий из 5 функций: A, B, C, D, E. Все они являются числовыми значениями. Вместо кластеризации на основе плотности я хочу кластеризовать данные в виде дерева решений. Подход, который я имею в виду, выглядит примерно так: Алгоритм может делить данные на X исходных кластеров на …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.