Измерьте равномерность распределения точек в 2D квадрате

У меня есть 2D-квадрат, и внутри него есть набор точек, скажем, 1000 точек. Мне нужен способ увидеть, распределено ли распределение точек внутри квадрата (или более или менее равномерно распределено) или они собираются вместе в каком-то месте внутри квадрата.

Мне нужен математический / статистический (не программирующий) способ определить это. Я гуглил, нашел что-то вроде бодрости, Колмогорова и т. Д., И просто удивляюсь, есть ли другие подходы для достижения этой цели. Нужно это для классной бумаги.

Входы: 2D квадрат и 1000 точек. Вывод: да / нет (да = равномерно распределены, нет = собираются вместе в некоторых местах).

— фургон
источник

Вы недостаточно четко сформулировали, что для вас «равномерно распределено». Вы имеете в виду равномерно плиточный 2D равномерный куб или что-то еще? Например, равномерно распределенная цепочка точек? или круг точек? В некотором смысле, эти цифры также являются равномерными спредами.

— ttnphns

@ttnphns В этом контексте «униформа» имеет общепризнанное общепринятое значение. Это соответствует пуассоновскому процессу с постоянной интенсивностью. Он часто известен как «CSR», полностью пространственно случайный .

— whuber

@ Ван Вы хотите исследовать «пространственные точечные процессы». Хорошие ключевые слова включают в себя «Ripley K function», «CSR» и «Poisson». Доступной ссылкой для вас будет O'Sullivan & Unwin, Анализ географической информации. Классика - это Рипли, Пространственная статистика : она фокусируется на точечных процессах. Для приложений, взгляните на CrimeStat . Если вам удобно R, есть множество инструментов для этой задачи .

— whuber

Ответы:

Я думаю, что идея @John по критерию хи-квадрат - один из способов.

Вы хотели бы патчи на 2-й, но вы хотели бы проверить их, используя 1-х сторонний критерий хи-квадрат; то есть ожидаемые значения для ячеек будут где N - количество клеток. $\frac{1000}{N}$

Но возможно, что разное количество клеток даст разные выводы.

Другая возможность состоит в том, чтобы вычислить среднее расстояние между точками, а затем сравнить его с результатами моделирования этого среднего. Это позволяет избежать проблемы произвольного количества ячеек.

РЕДАКТИРОВАТЬ (больше на среднем расстоянии)

С 1000 очков, есть попарных расстояния между точками. Каждый из них может быть вычислен (используя, скажем, евклидово расстояние). Эти расстояния могут быть усреднены. $\frac{1000*999}{2}$

Затем вы можете сгенерировать N (большое количество) наборов из 1000 точек, которые распределены равномерно. Каждый из этих N наборов также имеет среднее расстояние между точками.

Сравните результаты для фактических точек с смоделированными точками, чтобы получить значение p или просто посмотреть, где они упали.

— Питер Флом
источник

Я согласен, что критерий хи-квадрат с одной выборкой («критерий хи-квадрат согласия») является одним из разумных способов. Но можете ли вы подробнее рассказать о своем предложении «среднего расстояния»? Я не совсем понял это.

— ttnphns

@ttnphns, те, которые используются в пространственном анализе, - это тест ближайшего соседа (он же тест Кларка и Эванса), или Рипли К. Смотрите примеры библиотеки spatstat библиотеки R или документацию CrimeStat . Еще одна возможность, основанная на симуляции, это «сканирующие» тесты, но они не основаны на средних расстояниях.

— Энди W

Другая возможность - это тест хи-квадрат. Разделите квадрат на равные по размеру неперекрывающиеся патчи и проверьте количество точек, попадающих в патчи, по сравнению с их ожидаемыми значениями в соответствии с гипотезой однородности (ожидаемый патч будет total_points / total_patches, если все они одинакового размера) и применить тест хи-квадрат. Для 1000 очков 9 патчей должно быть достаточно, но вы можете использовать больше детализации в зависимости от того, как выглядят ваши данные.

— Бен Эллисон
источник

Я думаю, что вы на что-то, но вы согласитесь, если вы согласитесь с хи-квадратом, сравнивающим фактические значения в каждой ячейке с ожидаемым числом равных ячеек. Использование теста на непредвиденные обстоятельства НЕ будет проверять, было ли равномерное распределение среди ваших ячеек, только если строка зависела от столбца.

— Джон

Кроме того, тест хи-квадрат скажет вам только, если они не будут одинаковыми по выбранным ячейкам. Это не скажет вам, если бы они были едины.

— Джон

Да, я имел в виду подсчеты против их ожидаемых подсчетов при нулевой гипотезе единообразия, мои извинения, если это не было ясно. Вы можете просто представить его в виде таблицы, которая помогает понять, что происходит для непосвященных! И, очевидно, вы ограничены проверкой выбранных ячеек, а не единообразием в абстрактном смысле

— Бен Аллисон,

@John, обычно, когда кто-то делает этот «тест на дисперсию», он обычно делает двусторонний тест. Если вы действительно хотите увидеть, является ли шаблон более равномерным, чем ожидалось, вы можете просто посмотреть, попал ли критерий хи-квадрат в левый хвост распределения (при любом срезе, который вы предпочитаете).

— Энди W

Энди, ты должен дать ответ, который детализирует этот двусторонний тест на пригодность. Обычно двухсторонние тесты просто тестируют две разные альтернативы нулю, но все еще не могут продемонстрировать нулевое значение. Ваше предложение интригует.

— Джон

Почему бы не использовать тест Колмогорова-Смирнова? Я бы так и сделал, особенно учитывая, что размер вашей выборки достаточно велик, чтобы компенсировать недостаток энергии.

В качестве альтернативы, вы могли бы сделать некоторые моделирования. Это не является строгим, но оно предоставляет некоторые доказательства того, равномерно ли распределены данные.

@whuber Двумерное расширение KS хорошо известно (см. здесь ). В этом случае мы исследуем, могут ли эти 1000 ничьих (координаты (x, y)) быть взяты из двумерного совместно равномерного распределения - по крайней мере, так я прочитал «равномерно распределенный». @ Джон Я мог бы выразить себя неуклюже (ни математика, ни английский не являются моими первыми языками). Я имел в виду, что точное значение p можно вычислить с помощью теста, такого как KS, тогда как значение p (или как вы его называете эквивалентным) имеет тенденцию асимптотически проявляться только при симуляции.

— abaumann
источник

Почему симуляция не будет строгой?

— Джон

Не могли бы вы объяснить, как тест KS, предназначенный для наборов действительных чисел, предположительно являющихся результатом непрерывной случайной величины, будет применяться к этому пространственному набору данных?

— whuber

@whuber Я отредактировал свой ответ, чтобы попытаться дать ответы на него. Лучший.

— abaumann

@ Джон, я пытался объяснить, что я имел в виду. Лучший.

— abaumann