Почему нельзя обобщить критерий Колмогорова-Смирнова на 2 или более измерения?


9

Вопрос говорит обо всем. Я читал, что нельзя обобщить KS до измерения, равного или большего, чем два , и что известные реализации, подобные этой в Числовых Рецептах , просто неверны. Не могли бы вы объяснить, почему это так?


Я добавил несколько тегов (двумерный, эмпирический и cdf) на основе цитируемого (в моем ответе) раздела статьи.
Glen_b

pedrofigueira - я внес существенные изменения в свой ответ (мой оригинал был неверным; извините за это). Я, вероятно, внесу больше правок, потому что собираюсь вернуться со ссылками на несколько многовариантных тестов KS.
Glen_b

@Glen_b большое спасибо за ваше время и усилия!
Pedrofigueira

Ответы:


13

Я полагаю, что законно процитировать соответствующую часть рассматриваемого абзаца:

3. Тест KS нельзя применять в двух или более измерениях. Астрономы часто имеют наборы данных с точками, распределенными в плоскости или более высоких измерениях, а не вдоль линии. Несколько статей в астрономической литературе имеют целью представить двумерный тест KS, а один воспроизведен в известном томе «Численные рецепты». Однако ни один тест на основе EDF (включая KS, AD и связанные с ним тесты) не может быть применен в двух или более измерениях, поскольку не существует уникального способа упорядочить точки, чтобы можно было рассчитать расстояния между четко определенными EDF. Можно построить статистику на основе некоторой процедуры упорядочения, а затем вычислить супремумные расстояния между двумя наборами данных (или одним набором данных и кривой). Но критические значения полученной статистики не распространяются бесплатно.

Как уже говорилось, это кажется слишком сильным.

1) Двусторонняя функция распределения, которая является является отображением из в . То есть функция принимает одномерные действительные значения от 0 до 1. Эти значения - вероятности - уже, безусловно, «упорядочены» - и это (значение функции) - то, с чем нам нужно сравнивать тесты на основе ECDF. , Точно так же ecdf, совершенно хорошо определен в двумерном случае.F(Икс1,Икс2)знак равноп(Икс1Икс1,Икс2Икс2)р2[0,1]F^

Я не думаю, что обязательно нужно пытаться превратить его в некоторую функцию одномерной комбинированной переменной, как предлагает текст. Вы просто вычисляете и для каждой требуемой комбинации и вычисляете разницу.FF^

2) Однако, на вопрос о том, распространяется ли он бесплатно, у них есть смысл:

a) ясно, что такая тестовая статистика не будет изменена изменениями в преобразованиях полей, то есть, если она построена как тест двумерных независимых форм, , то она работает одинаково а также тест независимых где . В этом смысле он не распространяется (мы можем сказать «без полей»).Uзнак равно(U1,U2)(Икс1,Икс2)Uязнак равноFя(Икся)

б) тем не менее, в более широком смысле существует базовый момент, заключающийся в том, что наивный вариант статистики KS (такой, как я только что описал) не является более распространяемым; мы не можем просто произвольно преобразовать .UИкс*знак равног(U)

В более ранней версии моего ответа я сказал:

Нет проблем, нет проблем

Это неверно. Есть действительно проблемы, если есть изменение не только полей от двухмерной независимой формы, как только что упомянуто. Тем не менее, эти трудности были рассмотрены несколькими способами в ряде работ, которые дают двумерные / многомерные версии статистики Колмогорова-Смирнова, которые не страдают от этой проблемы.

Я могу вернуться и добавить некоторые из этих ссылок и некоторые обсуждения того, как они работают, как только позволит время.


Этот ответ явно правильный, но будьте осторожны: тест KS можно использовать, но это не значит, что его следует использовать. Обычно есть гораздо лучшие тесты (более мощные).
kjetil b halvorsen

Конечно - хотя это зависит от того, какие альтернативы представляют интерес.
Glen_b

1
Я не до конца понимаю этот ответ. Я полагаю, что многие астрономические наборы данных (как и многие другие мелкомасштабные наборы данных) не имеют встроенных систем координат. Таким образом, ваше утверждение о том, что очки «уже заказаны», в таких обстоятельствах будет недействительным. Его можно было бы спасти, если бы вы смогли показать, что статистика KS не зависит от координат, используемых для определения местоположений . Я не думаю, что это правда в двух или более измерениях, но я могу ошибаться.
whuber

1
@whuber Я внес существенные изменения в свете вашего очень любезного ответа на мою ошибку. Я, вероятно, внесу дальнейшие изменения, когда добавлю ссылки и дополнительную информацию в надежде сделать ответ, который будет более полезным в долгосрочной перспективе.
Glen_b

(+1) Большое спасибо, Глен, за то, что расширили этот ответ и сделали его более нюансированным. Хотя я нахожу ссылку ОП на сомнительное качество (с самого начала она неверно истолковывает, что означают тесты на гипотезу), она, наконец, признает, что «самозагрузка может прийти на помощь, и уровни значимости для конкретной многомерной статистики и конкретного исследуемого набора данных могут быть численно рассчитано. " Кажется, это согласуется, по крайней мере в духе, с тем, как складывается ваш ответ.
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.