Вопросы с тегом «distance»

Мера расстояния между распределениями или переменными, например евклидово расстояние между точками в n-пространстве.

9
Объяснение расстояния Махаланобиса снизу вверх?
Я изучаю распознавание образов и статистику, и почти в каждой книге, которую я открываю на эту тему, я сталкиваюсь с концепцией расстояния Махаланобиса . Книги дают интуитивно понятные объяснения, но все еще недостаточно хороши для того, чтобы я действительно мог понять, что происходит. Если бы кто-то спросил меня: «Каково расстояние …

3
Пример: регрессия LASSO с использованием glmnet для двоичного результата
Я начинаю баловаться с использованием glmnetс LASSO регрессией , где мой результат представляет интерес дихотомический. Я создал небольшой фрейм данных ниже: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

5
Интуиция о расхождении Кульбака-Лейблера (КЛ)
Я узнал об интуиции, лежащей в основе дивергенции KL, о том, насколько функция распределения моделей отличается от теоретического / истинного распределения данных. Источник Читаю продолжает говорить о том , что интуитивное понимание «расстояний» между этими двумя распределениями является полезным, но не следует воспринимать буквально , потому что для двух распределений …

2
Выбор правильного метода связи для иерархической кластеризации
Я выполняю иерархическую кластеризацию данных, которые я собрал и обработал из дампа данных Reddit в Google BigQuery. Мой процесс следующий: Получить последние 1000 сообщений в / г / политика Соберите все комментарии Обработка данных и вычисление n x mматрицы данных (n: пользователи / образцы, m: сообщения / функции) Рассчитать матрицу …

1
Преобразование матрицы подобия в (евклидову) матрицу расстояний
В алгоритме «Случайный лес» Брейман (автор) строит матрицу подобия следующим образом: Посылайте все учебные примеры по каждому дереву в лесу Если два примера попадают в один и тот же лист, увеличивайте соответствующий элемент в матрице подобия на 1 Нормализовать матрицу количеством деревьев Он говорит: Близость между случаями n и k …


1
Можно ли распространить критерий Мантеля на асимметричные матрицы?
Тест Мантеля обычно применяется к симметричным матрицам расстояний / разностей. Насколько я понимаю, предположение теста состоит в том, что мера, используемая для определения различий, должна быть, по крайней мере, полуметрической (соответствовать стандартным требованиям метрики, но не неравенству треугольника). Может ли предположение о симметрии быть ослаблено (давая предварительную метрику)? Можно ли …

1
Использование корреляции в качестве метрики расстояния (для иерархической кластеризации)
Я хотел бы иерархически кластеризовать свои данные, но вместо евклидова расстояния я хотел бы использовать корреляцию. Кроме того, поскольку коэффициент корреляции варьируется от -1 до 1, причем оба значения -1 и 1 обозначают «совместное регулирование» в моем исследовании, я отношусь к обоим -1 и 1 как к d = 0. …

8
Выполнять K-средние (или их близкие родственники) кластеризацию только с матрицей расстояний, а не с данными по точкам
Я хочу выполнить кластеризацию K-средних на имеющихся у меня объектах, но объекты не описываются как точки в пространстве, то есть objects x featuresнабором данных. Тем не менее, я могу вычислить расстояние между любыми двумя объектами (оно основано на функции подобия). Итак, я избавляюсь от матрицы расстояний objects x objects. Я …

3
Распределение разницы между двумя нормальными распределениями
У меня есть две функции плотности вероятности нормальных распределений: f1(x1|μ1,σ1)=1σ12π−−√e−(x−μ1)22σ21f1(x1|μ1,σ1)=1σ12πe−(x−μ1)22σ12f_1(x_1 \; | \; \mu_1, \sigma_1) = \frac{1}{\sigma_1\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_1)^2}{2\sigma_1^2} } и f2(x2|μ2,σ2)=1σ22π−−√e−(x−μ2)22σ22f2(x2|μ2,σ2)=1σ22πe−(x−μ2)22σ22f_2(x_2 \; | \; \mu_2, \sigma_2) = \frac{1}{\sigma_2\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_2)^2}{2\sigma_2^2} } Я ищу функцию плотности вероятности разделения между и . Я думаю, это означает, что …

4
Почему смешанные данные являются проблемой для евклидовых алгоритмов кластеризации?
Большинство классических алгоритмов кластеризации и уменьшения размерности (иерархическая кластеризация, анализ главных компонентов, k-средних, самоорганизующиеся карты ...) разработаны специально для числовых данных, а их входные данные рассматриваются как точки в евклидовом пространстве. Это, конечно, проблема, поскольку многие вопросы реального мира включают в себя данные, которые смешаны: например, если мы изучаем автобусы, …

1
Связь между дисперсией и попарными расстояниями в переменной
Пожалуйста, докажите, что если у нас есть две переменные (одинаковый размер выборки) и а дисперсия в больше, чем в , то сумма квадратов разностей (то есть квадратов евклидовых расстояний) между точками данных в также больше, чем что в .XXXYYYXXXYYYXXXYYY

9
Попарное расстояние Махаланобис
Мне нужно рассчитать выборочное расстояние Махаланобиса в R между каждой парой наблюдений в матрице ковариат n×pn×pn \times p . Мне нужно решение, которое является эффективным, то есть только n(n−1)/2n(n−1)/2n(n-1)/2 Е. Рассчитываются расстояний, и желательно, чтобы они были реализованы в C / RCpp / Fortran и т. Д. Я предполагаю, что …
18 r  algorithms  distance 

3
Рассчитать расхождение Кульбака-Лейблера на практике?
Я использую KL Divergence как меру различия между 2 p.m.f.p.m.f.p.m.f. PPP и QQQ . =-ΣР(Хя)лп(В(Хя))+ΣР(Хя)лп(Р(Хя))DKL(P||Q)=∑i=1Nln(PiQi)PiDKL(P||Q)=∑i=1Nln⁡(PiQi)PiD_{KL}(P||Q) = \sum_{i=1}^N \ln \left( \frac{P_i}{Q_i} \right) P_i =−∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))=−∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))=-\sum P(X_i)ln\left(Q(X_i)\right) + \sum P(X_i)ln\left(P(X_i)\right) Если то мы можем легко вычислить, что P ( X i ) l n ( Q ( X i ) ) = 0 …

2
Максимальное среднее расхождение (распределение по расстоянию)
У меня есть два набора данных (исходные и целевые данные), которые следуют за разным распределением. Я использую MMD - это непараметрическое распределение расстояний - для вычисления предельного распределения между исходными и целевыми данными. исходные данные, хз целевые данные, Xt Матрица адаптации А * Проецируемые данные, Zs = A '* Xs …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.