Измерьте равномерность распределения точек в 2D квадрате


11

У меня есть 2D-квадрат, и внутри него есть набор точек, скажем, 1000 точек. Мне нужен способ увидеть, распределено ли распределение точек внутри квадрата (или более или менее равномерно распределено) или они собираются вместе в каком-то месте внутри квадрата.

Мне нужен математический / статистический (не программирующий) способ определить это. Я гуглил, нашел что-то вроде бодрости, Колмогорова и т. Д., И просто удивляюсь, есть ли другие подходы для достижения этой цели. Нужно это для классной бумаги.

Входы: 2D квадрат и 1000 точек. Вывод: да / нет (да = равномерно распределены, нет = собираются вместе в некоторых местах).


1
Вы недостаточно четко сформулировали, что для вас «равномерно распределено». Вы имеете в виду равномерно плиточный 2D равномерный куб или что-то еще? Например, равномерно распределенная цепочка точек? или круг точек? В некотором смысле, эти цифры также являются равномерными спредами.
ttnphns

3
@ttnphns В этом контексте «униформа» имеет общепризнанное общепринятое значение. Это соответствует пуассоновскому процессу с постоянной интенсивностью. Он часто известен как «CSR», полностью пространственно случайный .
whuber

2
@ Ван Вы хотите исследовать «пространственные точечные процессы». Хорошие ключевые слова включают в себя «Ripley K function», «CSR» и «Poisson». Доступной ссылкой для вас будет O'Sullivan & Unwin, Анализ географической информации. Классика - это Рипли, Пространственная статистика : она фокусируется на точечных процессах. Для приложений, взгляните на CrimeStat . Если вам удобно R, есть множество инструментов для этой задачи .
whuber

Ответы:


5

Я думаю, что идея @John по критерию хи-квадрат - один из способов.

Вы хотели бы патчи на 2-й, но вы хотели бы проверить их, используя 1-х сторонний критерий хи-квадрат; то есть ожидаемые значения для ячеек будут где N - количество клеток.1000N

Но возможно, что разное количество клеток даст разные выводы.

Другая возможность состоит в том, чтобы вычислить среднее расстояние между точками, а затем сравнить его с результатами моделирования этого среднего. Это позволяет избежать проблемы произвольного количества ячеек.

РЕДАКТИРОВАТЬ (больше на среднем расстоянии)

С 1000 очков, есть попарных расстояния между точками. Каждый из них может быть вычислен (используя, скажем, евклидово расстояние). Эти расстояния могут быть усреднены.1000*9992

Затем вы можете сгенерировать N (большое количество) наборов из 1000 точек, которые распределены равномерно. Каждый из этих N наборов также имеет среднее расстояние между точками.

Сравните результаты для фактических точек с смоделированными точками, чтобы получить значение p или просто посмотреть, где они упали.


Я согласен, что критерий хи-квадрат с одной выборкой («критерий хи-квадрат согласия») является одним из разумных способов. Но можете ли вы подробнее рассказать о своем предложении «среднего расстояния»? Я не совсем понял это.
ttnphns

@ttnphns, те, которые используются в пространственном анализе, - это тест ближайшего соседа (он же тест Кларка и Эванса), или Рипли К. Смотрите примеры библиотеки spatstat библиотеки R или документацию CrimeStat . Еще одна возможность, основанная на симуляции, это «сканирующие» тесты, но они не основаны на средних расстояниях.
Энди W

3

Другая возможность - это тест хи-квадрат. Разделите квадрат на равные по размеру неперекрывающиеся патчи и проверьте количество точек, попадающих в патчи, по сравнению с их ожидаемыми значениями в соответствии с гипотезой однородности (ожидаемый патч будет total_points / total_patches, если все они одинакового размера) и применить тест хи-квадрат. Для 1000 очков 9 патчей должно быть достаточно, но вы можете использовать больше детализации в зависимости от того, как выглядят ваши данные.


1
Я думаю, что вы на что-то, но вы согласитесь, если вы согласитесь с хи-квадратом, сравнивающим фактические значения в каждой ячейке с ожидаемым числом равных ячеек. Использование теста на непредвиденные обстоятельства НЕ будет проверять, было ли равномерное распределение среди ваших ячеек, только если строка зависела от столбца.
Джон

Кроме того, тест хи-квадрат скажет вам только, если они не будут одинаковыми по выбранным ячейкам. Это не скажет вам, если бы они были едины.
Джон

Да, я имел в виду подсчеты против их ожидаемых подсчетов при нулевой гипотезе единообразия, мои извинения, если это не было ясно. Вы можете просто представить его в виде таблицы, которая помогает понять, что происходит для непосвященных! И, очевидно, вы ограничены проверкой выбранных ячеек, а не единообразием в абстрактном смысле
Бен Аллисон,

@John, обычно, когда кто-то делает этот «тест на дисперсию», он обычно делает двусторонний тест. Если вы действительно хотите увидеть, является ли шаблон более равномерным, чем ожидалось, вы можете просто посмотреть, попал ли критерий хи-квадрат в левый хвост распределения (при любом срезе, который вы предпочитаете).
Энди W

Энди, ты должен дать ответ, который детализирует этот двусторонний тест на пригодность. Обычно двухсторонние тесты просто тестируют две разные альтернативы нулю, но все еще не могут продемонстрировать нулевое значение. Ваше предложение интригует.
Джон

1

Почему бы не использовать тест Колмогорова-Смирнова? Я бы так и сделал, особенно учитывая, что размер вашей выборки достаточно велик, чтобы компенсировать недостаток энергии.

В качестве альтернативы, вы могли бы сделать некоторые моделирования. Это не является строгим, но оно предоставляет некоторые доказательства того, равномерно ли распределены данные.


@whuber Двумерное расширение KS хорошо известно (см. здесь ). В этом случае мы исследуем, могут ли эти 1000 ничьих (координаты (x, y)) быть взяты из двумерного совместно равномерного распределения - по крайней мере, так я прочитал «равномерно распределенный». @ Джон Я мог бы выразить себя неуклюже (ни математика, ни английский не являются моими первыми языками). Я имел в виду, что точное значение p можно вычислить с помощью теста, такого как KS, тогда как значение p (или как вы его называете эквивалентным) имеет тенденцию асимптотически проявляться только при симуляции.


Почему симуляция не будет строгой?
Джон

1
Не могли бы вы объяснить, как тест KS, предназначенный для наборов действительных чисел, предположительно являющихся результатом непрерывной случайной величины, будет применяться к этому пространственному набору данных?
whuber

@whuber Я отредактировал свой ответ, чтобы попытаться дать ответы на него. Лучший.
abaumann

@ Джон, я пытался объяснить, что я имел в виду. Лучший.
abaumann
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.