Вопросы с тегом «metric»

Метрика - это функция, которая выводит расстояние между двумя элементами набора и соответствует определенным строгим критериям (некоторые функции «расстояния» не являются метриками).

8
Почему евклидово расстояние не является хорошим показателем в больших измерениях?
Я читал, что «евклидово расстояние не является хорошим расстоянием в больших измерениях». Я думаю, что это утверждение как-то связано с проклятием размерности, но что именно? Кроме того, что такое «большие размеры»? Я применял иерархическую кластеризацию, используя евклидово расстояние со 100 объектами. До скольких функций «безопасно» использовать этот показатель?

6
Процент перекрывающихся областей двух нормальных распределений
Мне было интересно, учитывая два нормальных распределения с и \ sigma_2, \ \ mu_2σ1, μ1σ1, μ1\sigma_1,\ \mu_1σ2, μ2σ2, μ2\sigma_2, \ \mu_2 Как я могу рассчитать процент перекрывающихся регионов двух распределений? Я полагаю, что у этой проблемы есть определенное имя, знаете ли вы какое-либо конкретное имя, описывающее эту проблему? Вам известно …

4
Напомним и точность в классификации
Я прочитал некоторые определения отзыва и точности, хотя это каждый раз в контексте поиска информации. Мне было интересно, может ли кто-нибудь объяснить это немного подробнее в контексте классификации и, возможно, проиллюстрировать некоторые примеры. Скажем, например, у меня есть двоичный классификатор, который дает мне точность 60% и отзыв 95%, это хороший …

1
Вычисление повторяемости эффектов по модели Лмера
Я только что наткнулся на эту статью , в которой описывается, как вычислить повторяемость (или надежность, или внутриклассовую корреляцию) измерения с помощью моделирования смешанных эффектов. Код R будет: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

3
Каковы преимущества метрики Вассерштейна по сравнению с дивергенцией Кульбака-Лейблера?
В чем практическая разница между метрикой Вассерштейна и дивергенцией Кульбака-Лейблера ? Метрика Вассерштейна также называется расстоянием перемещения Земли . Из Википедии: Метрика Вассерштейна (или Вазерштейна) - это функция расстояния, определяемая между вероятностными распределениями в данном метрическом пространстве М. а также Дивергенция Кульбака – Лейблера - это мера того, как одно …

5
Как контролировать стоимость ошибочной классификации в случайных лесах?
Можно ли контролировать стоимость ошибочной классификации в пакете R randomForest ? В моей собственной работе ложные отрицания (например, отсутствие по ошибке того, что у человека может быть заболевание) намного дороже ложных срабатываний. Пакет rpart позволяет пользователю контролировать затраты на неправильную классификацию, указывая матрицу потерь для неправильной классификации веса по-разному. Существует …

2
Сравнение кластеров: индекс Рэнда и вариация информации
Мне было интересно, есть ли у кого-нибудь понимание или интуиция, стоящие за разницей между вариацией информации и индексом Рэнда для сравнения кластеризаций. Я прочитал статью Марины Мелии « Сравнение кластеризаций - расстояние, основанное на информации » (Журнал многомерного анализа, 2007), но, кроме того, что я заметил разницу в определениях, я …


2
Дивергенция Дженсена Шеннона - Дивергенция Кульбака-Лейблера?
Я знаю, что дивергенция KL не является симметричной, и ее нельзя строго рассматривать как метрику. Если да, то почему он используется, когда JS Divergence удовлетворяет требуемым свойствам метрики? Существуют ли сценарии, в которых может использоваться дивергенция KL, но не дивергенция JS или наоборот?

4
Есть ли вероятностное расстояние, которое сохраняет все свойства метрики?
Изучая расстояние Кульбака – Лейблера, мы очень быстро узнаем две вещи: оно не учитывает ни неравенство треугольника, ни симметрию, требуемые свойства метрики. Мой вопрос заключается в том, есть ли метрика функций плотности вероятности, которые удовлетворяют всем ограничениям метрики .

4
Выполняется ли неравенство треугольника для этих корреляционных расстояний?
Для иерархической кластеризации я часто вижу следующие две «метрики» (они точно не говорят) для измерения расстояния между двумя случайными переменными XXX и YYY : \newcommand{\Cor}{\mathrm{Cor}} d1(X,Y)d2(X,Y)=1−|Cor(X,Y)|,=1−(Cor(X,Y))2d1(X,Y)=1−|Cor(X,Y)|,d2(X,Y)=1−(Cor(X,Y))2\begin{align} d_1(X,Y) &= 1-|\Cor(X,Y)|, \\ d_2(X,Y) &= 1-(\Cor(X,Y))^2 \end{align} ли либо выполнить неравенство треугольника? Если так, то как мне доказать это, кроме как просто делать …

2
Метрики для ковариационных матриц: недостатки и сильные стороны
Каковы «лучшие» метрики для ковариационных матриц и почему? Мне ясно, что Frobenius и c не подходят, и у параметризации угла тоже есть свои проблемы. Интуитивно можно хотеть компромисса между этими двумя, но я также хотел бы знать, есть ли другие аспекты, о которых следует помнить, и, возможно, устоявшиеся стандарты. Обычные …

1
Формула формулы инерции в скиките учиться
Я хотел бы закодировать кластеризацию kmeans в python, используя pandas и scikit learn. Чтобы выбрать хороший k, я хотел бы закодировать статистику разрыва из Tibshirani и др. 2001 ( pdf ). Я хотел бы знать, могу ли я использовать результат inertia_ от scikit и адаптировать формулу статистики разрыва без необходимости …

2
Должно ли расстояние быть «метрикой», чтобы иерархическая кластеризация действовала на нем?
Допустим, мы определяем расстояние, которое не является метрикой , между N элементами. На основании этого расстояния мы затем используем агломерационную иерархическую кластеризацию . Можем ли мы использовать каждый из известных алгоритмов (одиночная / максимальная / средняя связь и т. Д.), Чтобы получить значимые результаты? Или, другими словами, в чем проблема …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.