Как найти отношения между различными типами событий (определяется их 2D-местоположением)?

У меня есть набор данных событий, которые произошли за тот же период времени. Каждое событие имеет тип (есть несколько разных типов, меньше десяти) и местоположение, представленное в виде 2D-точки.

Я хотел бы проверить, есть ли какая-либо корреляция между типами событий, или между типом и местоположением. Например, может быть, события типа A обычно не происходят там, где происходят события типа B. Или, может быть, в какой-то области, в основном, есть события типа C.

Какие инструменты я могу использовать для этого? Будучи новичком в статистическом анализе, моя первая идея состояла в том, чтобы использовать какой-либо PCA (Анализ основных компонентов) в этом наборе данных, чтобы увидеть, имеет ли каждый тип события свой собственный компонент, или, может быть, некоторые имеют одинаковый (то есть коррелированный)?

Я должен упомянуть, что мой набор данных имеет порядок 500 000 точек , что усложняет задачу. $(x, y, type)$

РЕДАКТИРОВАТЬ: Как отмечается в ответах ниже и в комментариях, можно смоделировать этот процесс как отмеченный точечный процесс, а затем использовать R для выполнения всей тяжелой работы, как подробно описано в этом отчете семинара: http: / /www.csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html

— Wookai
источник

Является ли это набор растровых данных, например (обработанное) дистанционно считываемое изображение, или это нерегулярный набор данных?

— whuber

Ну, я думаю, вы бы назвали это нерегулярным: это записи преступлений, которые произошли в Великобритании в течение определенного месяца, доступны здесь: Police.uk/data .

— Wookai

@ Wookai 500 000 000 преступлений в Великобритании за один месяц ?? Разошлась ли анархия на Британских островах, о которой не сообщала пресса, и, наконец, она была раскрыта в документах полиции? :-) Я мог бы поверить, что примерно 1/100 этой суммы - едва.

— whuber

Ух, мне очень жаль эту "опечатку";)! На самом деле это в 1000 раз меньше, 500 000 преступлений (считая «транспортных преступлений», то есть скоростных билетов и т. Д.).

— Вукай

Да, R выглядит так, как надо! Я нашел очень полный отчет о семинаре по модулю spatstat в R, который делает именно то, что я ищу: csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html

— Wookai

Ответы:

Тип данных, который вы описываете, обычно называют «паттернами отмеченных точек», у R есть представление задач для пространственной статистики, которое предлагает много хороших пакетов для этого типа анализа, большинство из которых, вероятно, не в состоянии иметь дело с такими огромными данными, которые вы иметь :(

Например, может быть, события типа A обычно не происходят там, где происходят события типа B. Или, может быть, в какой-то области, в основном, есть события типа C.

Это два довольно разных типа вопросов: второй задает вопрос о позиционировании одного типа знака / события. Ключевые слова для поиска в этом контексте - это оценка интенсивности или оценка K-функции, если вы заинтересованы в обнаружении паттернов кластеризации (события определенного типа, как правило, группируются вместе) или отталкивания (события такого рода, как правило, разделяются). Первый спрашивает о корреляции между различными типами событий. Обычно это измеряется с помощью меток корреляционных функций.

Я думаю, что дополнительная выборка данных для получения более гибкого размера данных опасна (см. Комментарий к ответу @ hamner), но, возможно, вы могли бы объединить свои данные: разделите окно наблюдения на управляемое количество ячеек одинакового размера и сведите в таблицу число событий в каждый. Затем каждая ячейка описывается расположением ее центра и 10 векторов отсчетов для ваших 10 типов отметок. Вы должны быть в состоянии использовать стандартные методы для отмеченных точечных процессов в этом агрегированном процессе.

— фабианцы
источник

Я знаком с отмеченными точечными процессами и некоторыми соответствующими теоретическими инструментами, я должен был подумать об этом раньше. Большое спасибо за ключевые слова, у вас есть несколько указателей на них? Спасибо также за идею агрегации, у меня была похожая, попробую это сделать.

— Wookai

Питер Диггл написал «Модель на основе геостатистики». У него также есть анализ данных о преступности в Ланкашире на этой странице: lancs.ac.uk/staff/diggle/MADE, который может дать вам несколько хороших идей.

— Фабианс

Во-первых, размер набора данных. Я рекомендую взять небольшие, пригодные для выборки выборки набора данных (либо путем случайного выбора N точек данных, либо путем случайного выбора нескольких относительно небольших прямоугольников в плоскости XY и взятия всех точек, попадающих в эту плоскость), а затем оттачивать свои методы анализа в этом подмножестве. Если у вас есть представление о форме анализа, которая работает, вы можете применить ее к более крупным частям набора данных.

PCA в основном используется как метод уменьшения размерности; Ваш набор данных имеет только три измерения (одно из которых является категориальным), поэтому я сомневаюсь, что оно применимо здесь.

Попробуйте поработать с Matlab или R, чтобы визуализировать точки, которые вы анализируете в плоскости XY (или их относительную плотность при работе со всем набором данных), как для отдельных типов, так и для всех типов вместе взятых, и увидеть, какие шаблоны появляются визуально. Это может помочь провести более тщательный анализ.

— benhamner
источник

Уместно ли это, зависит от того, что вы уже знаете или предполагаете о процессе генерации данных. Сэмплирование данных по регионам (т. Е. Взятие всех точек в некотором предварительно определенном меньшем окне) может быть опасным, если оно не однородно (потому что использование другого окна изменило бы ваши выводы). Выборка данных безотносительно к позиционированию обучающего набора приводит к «прореживанию» наблюдаемого процесса и делает недействительными выводы, которые вы, возможно, захотите сделать, например, о диапазоне корреляций между метками или процессами кластеризации / отталкивания.

— Фабианс

Да, я знаю, что PCA предназначен для уменьшения размерности, поэтому я был озадачен тем, как можно применить его к своему набору данных. Идея состояла в том, чтобы увидеть, имеет ли каждый тип события свое «направление» или некоторые «разделяют одно и то же направление». Но я думаю, я просто думал о корреляции.

— Вукай