2D аналог стандартного отклонения?


19

Рассмотрим следующий эксперимент: группе людей дается список городов, и их просят пометить соответствующие места на карте мира (без маркировки). Для каждого города вы получите разброс точек, примерно по центру соответствующего города. Некоторые города, скажем, Стамбул, будут демонстрировать меньше рассеяния, чем другие, скажем, Москва.

Предположим, что для данного города мы получаем набор двухмерных выборок , представляющих позицию города (например, в локальной системе координат) на карте, назначенной тестом. предмет . Я хотел бы выразить количество «дисперсии» точек в этом наборе в виде одного числа в соответствующих единицах (км).{(xi,yi)}(x,y)i

Для одномерной задачи я бы выбрал стандартное отклонение, но есть ли двухмерный аналог, который можно разумно выбрать для ситуации, описанной выше?


делать завоевание?
RockScience

Я добавил пространственный тег, учитывая, что пример явно пространственный. Если вы (или кто-либо еще) чувствуете, что нет необходимости откатывать это дополнение.
Энди W

Ответы:


12

Одна вещь, которую вы можете использовать, - это мера расстояния от центральной точки, , например примерное среднее значение точек или, возможно, центр тяжести наблюдаемых точек. Тогда мерой дисперсии будет среднее расстояние от этой центральной точки:c=(c1,c2)(x¯,y¯)

1ni=1n||zic||

где . Существует много возможных вариантов измерения расстояния, но разумным выбором может быть норма (например, евклидово расстояние): L 2zi={xi,yi}L2

||zя-с||знак равно(Икся-с1)2+(Yя-с2)2

Однако есть много других потенциальных вариантов. См. Http://en.wikipedia.org/wiki/Norm_%28matmatics%29.


Хотя расстояние будет отличным от нуля, это действительно странный выбор, поскольку он не соответствует в вырожденном случае обычному стандартному отклонению в одном измерении. Поэтому рассмотрим . | |Zя-с| |2
Алекс Р.

6

Хорошим справочником по метрикам для пространственного распределения точечных паттернов является руководство по CrimeStat (в частности, для этого вопроса будет интересна глава 4 ). Как и в метрической макрокоманде, стандартное отклонение расстояния аналогично стандартному двухмерному отклонению (единственное отличие состоит в том, что вы делите на «n-2», а не «n» в первой формуле, которую дал макрос).

Ваш примерный эксперимент на самом деле немного напоминает мне, как исследования оценивают географическое профилирование нарушителя , и, следовательно, метрики, используемые в этих работах, могут представлять интерес. В частности, термины «точность» и «точность» используются довольно редко и будут иметь отношение к исследованию. Предположения могут иметь небольшое стандартное отклонение (то есть точное), но все еще имеют очень низкую точность.


1

Я думаю, что вы должны использовать «Расстояние Махаланобиса», а не евклидовы нормы расстояния, поскольку оно учитывает корреляцию набора данных и является «масштабно-инвариантным». Вот ссылка:

http://en.wikipedia.org/wiki/Mahalanobis_distance

Вы также можете использовать «Глубина полупространства». Это немного сложнее, но имеет много привлекательных свойств. Глубина полупространства (также известная как глубина местоположения) данной точки относительно набора данных P - это минимальное количество точек P, лежащих в любой замкнутой полуплоскости, определяемой линией через a. Вот ссылки:

http://www.cs.unb.ca/~bremner/research/talks/depth-survey.pdf http://depth.johnhugg.com/DepthExplorerALENEXslides.pdf


1
Я понимаю использование расстояний Махаланобиса, когда вы пытаетесь определить, принадлежат ли определенные точки «множеству», но не является ли среднее евклидово расстояние от центроида более тесно связанным с обычной концепцией дисперсии / стандартного отклонения, которая используется в одномерные настройки?
Макро

2
Вы не возражаете против разработки утверждений «учитывает корреляцию данных» и «инвариантен ли масштаб»? Какое отношение имеет любая из этих вещей к рассматриваемому вопросу?
Энди W

Обычное расширение стандартного отклонения на более высокое измерение, конечно, является способом вычисления расстояния конкретной точки от центра данных - но здесь мы нормализуем каждую точку, что облегчает выполнение кластерного анализа или обнаружения выбросов. Кроме того, расстояние Махаланобиса является более адаптивным к случаям, когда распределение точек является несферическим. Для сферически симметричных случаев это то же самое, что и обычное расширенное стандартное отклонение - когда ковариационная матрица точек данных сводится к единичной матрице.
VitalStatistix

1

Я недавно столкнулся с подобной проблемой. Похоже, вы хотите измерить, насколько хорошо точки разбросаны по области. Конечно, для данного измерения вы должны понимать, что если все точки находятся на прямой линии, ответ будет нулевым, поскольку нет двумерного многообразия.

Из расчетов, которые я сделал, я пришел к следующему:

SИксИксSYY-SИксY²

В этом случае Sxx и Syy являются дисперсиями x и y соответственно, тогда как Sxy напоминает смешанную дисперсию x и y.

Чтобы уточнить, предполагая, что есть n элементов, и представляет среднее значение x, а представляет среднее значение y:ИксμYμ

SИксИксзнак равно1NΣязнак равно1N(Икс-Иксμ)²
SYYзнак равно1NΣязнак равно1N(Y-Yμ)²
SИксYзнак равно1NΣязнак равно1N(Икс-Иксμ)(Y-Yμ)

Надеюсь, это должно работать для вас.

Кроме того, если вам интересно, как это сделать в более высоких измерениях, например, при измерении разброса объема или объема обертки в 4 измерениях, вы должны сформировать такую ​​матрицу:

Sxx Sxy Sxz ...

Syx Syy Syz ...

Szx Szy Szz ...

... ... ... ...

И продолжайте столько раз, сколько вам нужно. Вы должны быть в состоянии выяснить значения S, учитывая приведенные выше определения, но для разных переменных.

Как только матрица сформирована, возьмите определитель, найдите квадратный корень, и все готово.


0

Для этого конкретного примера - где есть заранее определенный «правильный» ответ - я бы перестроил координаты x / y в полярные координаты вокруг города, который их просили отметить на карте. Точность затем измеряется против радиальной составляющей (среднее значение, стандартное отклонение и т. Д.). «Средний угол» также может быть использован для измерения смещения.

Для себя я все еще ищу хорошее решение, когда нет заранее определенной центральной точки, и мне не нравится идея предварительного прохождения данных для создания центроида.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.