Вопросы с тегом «distance-functions»

Функции расстояния относятся к функциям, используемым для количественной оценки понятия расстояния между элементами набора или между объектами.

8
Почему евклидово расстояние не является хорошим показателем в больших измерениях?
Я читал, что «евклидово расстояние не является хорошим расстоянием в больших измерениях». Я думаю, что это утверждение как-то связано с проклятием размерности, но что именно? Кроме того, что такое «большие размеры»? Я применял иерархическую кластеризацию, используя евклидово расстояние со 100 объектами. До скольких функций «безопасно» использовать этот показатель?

6
Выбор метода кластеризации
При использовании кластерного анализа в наборе данных для группировки аналогичных случаев необходимо выбирать из большого числа методов кластеризации и измерений расстояния. Иногда один выбор может влиять на другой, но существует множество возможных комбинаций методов. Кто-нибудь есть какие-либо рекомендации о том, как выбрать среди различных алгоритмов / методов кластеризации и меры …

6
Почему алгоритм кластеризации k-средних использует только евклидову метрику расстояния?
Есть ли конкретная цель с точки зрения эффективности или функциональности, почему алгоритм k-средних не использует, например, косинусное (дис) сходство в качестве метрики расстояния, а может использовать только евклидову норму? В целом, будет ли метод K-средних соответствовать и быть правильным, когда другие расстояния, кроме евклидовых, рассматриваются или используются? [Дополнение от @ttnphns. …

3
Каково распределение евклидова расстояния между двумя нормально распределенными случайными величинами?
Предположим, вам даны два объекта, точное местоположение которых неизвестно, но они распределены в соответствии с обычным распределением с известными параметрами (например, и . Мы можем предположить, что это обе двумерные нормали, так что позиции описываются распределением по координатам (т. Е. и - векторы, содержащие ожидаемые координаты для и соответственно). Мы …

2
Расстояние Кульбак – Лейблер - Колмогоров-Смирнов
Я вижу, что существует много формальных различий между мерами расстояния Кульбака-Лейблера-Колмогорова-Смирнова. Тем не менее, оба используются для измерения расстояния между распределениями. Есть ли типичная ситуация, когда один должен использоваться вместо другого? Каково обоснование для этого?

2
Иерархическая кластеризация с данными смешанного типа - какое расстояние / сходство использовать?
В моем наборе данных у нас есть как непрерывные, так и естественно дискретные переменные. Я хочу знать, можем ли мы сделать иерархическую кластеризацию, используя оба типа переменных. И если да, то какое расстояние подходит?

1
Сравнение иерархических кластерных дендрограмм, полученных разными расстояниями и методами
[Первоначальный заголовок «Измерение подобия для деревьев иерархической кластеризации» был позже изменен @ttnphns, чтобы лучше отражать тему] Я выполняю ряд иерархических кластерных анализов на базе данных записей пациентов (например, аналогично http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y ) Я экспериментирую с разными мерами расстояния , разными весами параметров и разными иерархическими методами , чтобы понять их влияние …

5
Измерение «расстояния» между двумя многомерными распределениями
Я ищу хорошую терминологию для описания того, что я пытаюсь сделать, чтобы упростить поиск ресурсов. Итак, скажем, у меня есть две группы точек A и B, каждая из которых связана с двумя значениями, X и Y, и я хочу измерить «расстояние» между A и B - то есть, насколько вероятно, …

2
Существует ли объективная оценка расстояния Хеллингера между двумя распределениями?
В ситуации, когда наблюдается распределение X1,…,XnX1,…,XnX_1,\ldots,X_n распределенное по распределению с плотностью fff , мне интересно, существует ли объективная оценка (на основе XiXiX_i ) расстояния Хеллингера до другого распределения с плотностью f0f0f_0 , а именно H(f,f0)={1−∫Xf(x)f0(x)−−−−−−−−√dx}1/2.H(f,f0)={1−∫Xf(x)f0(x)dx}1/2. \mathfrak{H}(f,f_0) = \left\{ 1 - \int_\mathcal{X} \sqrt{f(x)f_0(x)} \text{d}x \right\}^{1/2}\,.

1
Когда использовать взвешенное евклидово расстояние и как определить вес для использования?
У меня есть набор данных, где каждый данные состоят из NNn различных мер. Для каждого показателя у меня есть эталонное значение. Я хотел бы знать, насколько близки все данные к эталонному значению. Я подумал об использовании взвешенного евклидова расстояния следующим образом: dх , б= ( ∑Nя = 1веся( хя- бя)2) …

3
Можно ли использовать расстояние Манхэттена с межкластерными связями Уорда в иерархической кластеризации?
Я использую иерархическую кластеризацию для анализа данных временных рядов. Мой код реализован с использованием функции MathematicaDirectAgglomerate[...] , которая генерирует иерархические кластеры с учетом следующих входных данных: матрица расстояний D название метода, используемого для определения межкластерной связи. Я рассчитал матрицу расстояний D, используя расстояние Манхэттен: d(x,y)=∑i|xi−yi|d(x,y)=∑i|xi−yi|d(x,y) = \sum_i|x_i - y_i| где …

1
Кластеризация: я должен использовать расхождение Дженсена-Шеннона или его квадрат?
Я группирую распределения вероятностей, используя алгоритм распространения сродства , и планирую использовать расхождение Дженсена-Шеннона в качестве метрики расстояния. Правильно ли использовать сам JSD в качестве расстояния или JSD в квадрате? Почему? Какие различия могут возникнуть в результате выбора одного или другого?

3
Метрики или для кластеризации?
Кто-нибудь использует метрики или для кластеризации, а не ? Аггарвал и др. Об удивительном поведении метрик расстояния в многомерном пространстве сказали (в 2001 г.), чтоL1L1L_1L.5L.5L_.5L2L2L_2 L1L1L_1 неизменно предпочтительнее, чем евклидова метрика расстояния для приложений анализа больших размеров данных.L2L2L_2 и утверждал, что или могут быть еще лучше.L.5L.5L_.5L.1L.1L_.1 Причины использования или могут …

3
Евклидово расстояние и сходство
Я просто работаю с книгой Коллективный разум (Тоби Сегаран) и натолкнулся на евклидову оценку расстояния. В книге автор показывает, как рассчитать сходство между двумя массивами рекомендаций (например, .человек × фильм ↦ оценка )person×movie↦score)\textrm{person} \times \textrm{movie} \mapsto \textrm{score}) Он вычисляет евклидово расстояние для двух человек и по p 2 d ( …

1
Различия между PROC Mixed и lme / lmer в R - степени свободы
Примечание: этот вопрос является репостом, так как мой предыдущий вопрос пришлось удалить по юридическим причинам. Сравнивая PROC MIXED из SAS с функцией lmeиз nlmeпакета в R, я наткнулся на некоторые довольно запутанные различия. Более конкретно, степени свободы в разных тестах различаются между PROC MIXEDи lme, и я задавался вопросом, почему. …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.