Мотивация колмогоровского расстояния между распределениями

45

Есть много способов измерить, насколько похожи два вероятностных распределения. Среди методов, которые популярны (в разных кругах):

Колмогоровское расстояние: расстояние между функциями распределения;
расстояние Канторовича-Рубинштейна: максимальная разница между ожиданиями относительно двух распределений функций с постоянной Липшица $1$ , которая также оказывается расстоянием $L^1$ между функциями распределения;
расстояние с ограничением по Липшицу: как и расстояние KR, но функции также должны иметь абсолютное значение не более $1$ .

Они имеют разные преимущества и недостатки. Только сходимость в смысле 3. на самом деле точно соответствует сходимости в распределении; сходимость в смысле 1. или 2. в целом немного сильнее. (В частности, если $X_n=\frac{1}{n}$ с вероятностью $1$ , то $X_n$ сходится к $0$ по распределению, но не по колмогоровскому расстоянию. Однако, если предельное распределение непрерывно, патология не возникает.)

С точки зрения элементарной теории вероятности или меры 1. очень естественен, поскольку сравнивает вероятности нахождения в некотором множестве. С другой стороны, более изощренная вероятностная перспектива имеет тенденцию больше фокусироваться на ожиданиях, чем на вероятностях. Кроме того, с точки зрения функционального анализа расстояния типа 2. или 3., основанные на двойственности с некоторым функциональным пространством, очень привлекательны, потому что существует большой набор математических инструментов для работы с такими вещами.

Однако у меня сложилось впечатление (поправьте меня, если я ошибаюсь!), Что в статистике колмогоровское расстояние является обычно предпочтительным способом измерения подобия распределений. Я могу предположить одну причину: если одно из распределений является дискретным с конечной поддержкой - в частности, если это распределение некоторых реальных данных - тогда расстояние Колмогорова до модельного распределения легко вычислить. (Расстояние KR будет немного сложнее вычислить, а расстояние BL, вероятно, будет невозможно в практическом плане.)

Таким образом, мой вопрос (наконец) заключается в том, существуют ли другие причины, практические или теоретические, в пользу колмогоровского расстояния (или некоторого другого расстояния) для статистических целей?

— Марк Мекес
источник

1

Мне нравится вопрос, возможно, в этом вопросе уже есть большинство возможных ответов ... У вас есть представление о типе ответа / развития, который вы хотите?

— Робин Жирар

1

Не очень конкретно. Я совершенно не осведомлен о статистике, и одна из причин, по которой я спрашиваю, состоит в том, чтобы узнать, какие критерии статистики использовали бы для выбора между различными показателями. Так как я уже описал одно важное практическое преимущество 1 (вы можете вычислить его), меня особенно интересуют теоретические мотивы. Скажем, информация, предоставленная оценками колмогоровского расстояния, часто прямого использования в приложениях?

— Марк Мекес

Я забыл закончить свой предыдущий комментарий более или менее очевидным: и если да, то как?

— Марк Мекес

Я просто перечитал свой длинный комментарий выше и понял, что последний вопрос, который я поднял, является не только теоретическим, но и практическим. В любом случае, это один из тех вопросов, о которых мне было бы интересно узнать.

— Марк Мекес

Я знаю, что вы не хотели быть исчерпывающим, но вы могли бы добавить дорогую статистику Андерсона (см. En.wikipedia.org/wiki/Anderson%E2%80%93Darling_test ). Это заставило меня напомнить бумаги fromo Jager и Wellner (см projecteuclid.org/... ) , который extands / Андерсон обобщает любимец статистику (и включает в себя , в частности , более высокой критике Тьюки) ...

— робин Girard

12

Отметка,

главная причина использования KS, которую я знаю, заключается в том, что он естественным образом вытекает из теорем Гливенко-Кантелли в одномерных эмпирических процессах. Единственное упоминание, которое я бы порекомендовал, это AWvan der Vaart "Асимптотическая статистика", гл. 19. Более продвинутая монография Уэлнера и ван дер Ваарта "Слабая конвергенция и эмпирические процессы".

Я бы добавил две быстрые заметки:

другой мерой расстояния, обычно используемой в одномерных распределениях, является расстояние Крамера-фон Мизеса, которое является расстоянием L ^ 2;
в общих векторных пространствах используются разные расстояния; область интереса во многих статьях польская. Очень хорошим введением является «Сходимость вероятностных мер» Биллингсли.

Я прошу прощения, если я не могу быть более конкретным. Надеюсь, это поможет.

— с промежутками
источник

2

Две быстрые заметки на ваших заметках. 1. Расстояние C-vM является в точности двоюродным братом L ^ 2 колмогоровских (L ^ бесконечность) и (одномерных) KR (L ^ 1) расстояний и, следовательно, интерполируется между ними. 2. Одно преимущество, которое я не упомянул о расстояниях KR и BL, состоит в том, что они более естественным образом обобщаются в пространства более высоких измерений.

— Марк Мекес

Что касается 1., это правильно. Относительно 2. В принципе все вышеперечисленные расстояния могут быть перенесены на R ^ n, однако я не знаю популярных непараметрических тестов, основанных на каком-либо расстоянии. Было бы интересно узнать, есть ли такие.

— gappy

8

Вычислительные проблемы - самый сильный аргумент, который я слышал, так или иначе. Единственным большим преимуществом колмогоровского расстояния является то, что его очень легко вычислять аналитически практически для любого CDF. Большинство других метрик расстояния не имеют выражения в замкнутой форме, кроме, иногда, в случае Гаусса.

Колмогоровское расстояние выборки также имеет известное распределение выборки с учетом CDF (я не думаю, что большинство других делает), что в конечном итоге связано с процессом Винера. Это основа для теста Колмогорова-Смирнова для сравнения выборки с распределением или двух выборок друг с другом.

На более функциональном аналитическом примечании хорошая норма хороша тем, что (как вы упоминаете) она в основном определяет равномерную сходимость. Это оставляет вас с нормой сходимости, подразумевающей поточечную сходимость, и поэтому вы, если вы умны в том, как определять последовательности функций, вы можете работать в RKHS и использовать все хорошие инструменты, которые это обеспечивает.

— Богатый
источник

8

Таким образом , мой ответ таков: если у вас есть явное выражение или вы можете понять, как измеряется ваше расстояние (какие «различия» оно дает вес), тогда вы можете сказать, для чего оно лучше. Другим дополнительным способом анализа и сравнения такого теста является теория минимакса.

В конце некоторые тесты будут хороши для некоторых альтернатив, а некоторые для других. Для данного набора альтернатив иногда можно показать, обладает ли ваш тест оптимальным свойством в худшем случае: это теория минимакса.

Некоторые детали

Следовательно, вы можете рассказать о свойствах двух разных тестов, рассмотрев набор альтернатив, для которых они минимаксны (если такая альтернатива существует), т. Е. (Используя слова Донохо и Джина), сравнив их «оптимальную границу обнаружения» http: // projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1085408492 .

Отпусти меня на расстояние:

KS расстояние получается путем вычисления супремума разницы между эмпирическими cdf и cdf. Будучи супремумом, он будет очень чувствителен к локальным альтернативам (локальное изменение в cdf), но не к глобальным изменениям (по крайней мере, использование расстояния L2 между cdf будет менее локальным (открываю ли я открытую дверь?)). Тем не менее, самое главное, что это использует cdf. Это подразумевает асимметрию: вы придаете больше значения изменениям в хвосте вашего дистрибутива.
Метрика Вассерштейна (что вы имели в виду под Канторовичем Рубинштейном?) Http://en.wikipedia.org/wiki/Wasserstein_metric является вездесущей и, следовательно, ее трудно сравнивать.
- Для конкретного случая W2 он использовался в http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1017938923 и связан с расстоянием L2 до инверсии cdf. Насколько я понимаю, это придает хвостам еще больший вес, но я думаю, что вы должны прочитать статью, чтобы узнать о ней больше.
- В случае расстояния L1 между функцией плотности это будет в значительной степени зависеть от того, как вы оцениваете свою функцию зубной массы по данным ... но в противном случае это будет "сбалансированный тест", не придающий значения хвостам.

Чтобы вспомнить и расширить комментарий, который я сделал, чтобы завершить ответ:

Я знаю, что вы не хотели быть исчерпывающим, но вы могли бы добавить дорогую статистику Андерсона (см. Http://en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test ). Это заставило меня напомнить бумаги fromo Jager и Wellner (см http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1194461721 ) , который extands / Андерсон обобщает любимец статистика (и включают в себя , в частности , высшая критика туки). Высшая критика, как уже было показано, является минимаксной для широкого спектра альтернатив, и то же самое делают Джагер и Уэлнер для их расширения. Я не думаю, что минимаксное свойство было показано для теста Колмогорова. В любом случае, понимание того, какой тип теста является минимаксным, помогает вам понять, в чем его сила, поэтому вам следует прочитать статью выше.

— Робин Жирар
источник

1

Да, то, что я назвал расстоянием Канторовича-Рубинштейна, также называется расстоянием Вассерштейна L ^ 1 или W1. Это также называется многими другими именами.

— Марк Мекес

3

Просто чтобы уточнить для любого, кто не знаком с расстояниями Вассерштейна, кто читает это и ответ Гэппи: расстояние Вассерштейна L ^ 2 (W2) не совпадает с расстоянием Крамера-фон Мизеса.

— Марк Мекес

4

$F$ $F$

$F$ $\hat{F}$

sup_{x} | F_{n} (x) - \hat{F} (x) | .

$\sup_x | F_n(x) - \hat{F}(x)|.$

\hat{F}

$\hat{F}$

\hat{F} = F

$\hat{F} = F$

— vqv
источник

3

Я не могу дать вам дополнительных причин использовать тест Колмогорова-Смирнова. Но я могу дать вам важную причину не использовать его. Это не соответствует хвосту распределения хорошо. В этом отношении лучшим тестом для распределения является Андерсон-Дарлинг. Как второй лучший результат, тест Chi Square довольно хорош. В этом отношении оба считаются намного лучше теста KS.

— Sympa
источник

2

С точки зрения функционального анализа и теории меры расстояния типа не определяют измеримые множества на пространствах функций (бесконечномерные пространства теряют счетную добавку в метрических шаровых покрытиях). Это решительно дисквалифицирует любую измеримую интерпретацию расстояний выбора 2 и 3. $L^p$

Конечно, Коломогоров, будучи намного ярче, чем кто-либо из нас, особенно в том числе и я, ожидал этого. Умный бит заключается в том, что, хотя расстояние в тесте KS относится к многообразию , сама единообразная норма не используется для определения измеримых множеств. Скорее, наборы являются частью стохастической фильтрации различий между распределениями, оцененными по наблюдаемым значениям; что эквивалентно проблеме времени остановки. $L^0$

Короче говоря, предпочтительным является единичное нормированное расстояние выбора 1, поскольку подразумеваемое им испытание эквивалентно проблеме времени остановки, которая сама по себе создает вычислимые вероятности. Где в качестве вариантов 2 и 3 нельзя определить измеримые подмножества функций.

— Аарон Шелдон
источник