Морана I , мера пространственной автокорреляции, не является особенно надежной статистикой (она может быть чувствительной к искаженному распределению атрибутов пространственных данных).
Какие существуют более надежные методы измерения пространственной автокорреляции? Меня особенно интересуют решения, которые легко доступны / могут быть реализованы на языке сценариев, например R. Если решения применимы к уникальным обстоятельствам / распределению данных, укажите их в своем ответе.
РЕДАКТИРОВАТЬ : я расширяю вопрос с несколькими примерами (в ответ на комментарии / ответы на оригинальный вопрос)
Было высказано предположение, что методы перестановки (где распределение выборки Морана I генерируется с использованием процедуры Монте-Карло) предлагают надежное решение. Насколько я понимаю, такой тест устраняет необходимость делать какие-либо предположения о распределении Морана I (учитывая, что на статистику теста может влиять пространственная структура набора данных), но я не вижу, как метод перестановки корректирует ненормально распределенные атрибуты данных . Я предлагаю два примера: один демонстрирует влияние искаженных данных на локальную статистику I Морана, другой - на глобальную I I - даже при тестах перестановки.
Я буду использовать Zhang et al. s (2008) анализирует как первый пример. В своей статье они показывают влияние распределения атрибутных данных на локальный Моран I с помощью тестов перестановки (9999 симуляций). Я воспроизвел результаты «горячей точки» авторов для концентраций свинца (Pb) (при уровне достоверности 5%), используя исходные данные (левая панель) и логарифмическое преобразование этих же данных (правая панель) в GeoDa. Также представлены коробочные графики исходных и log-трансформированных концентраций свинца. Здесь число значительных горячих точек почти удваивается при преобразовании данных; Этот пример показывает , что локальная статистика является чувствительным к распределению данных атрибутов - даже при использовании методов Монте - Карло!
Второй пример (смоделированные данные) демонстрирует влияние искаженных данных, которые могут оказать на глобальное значение Морана I , даже при использовании перестановочных тестов. Пример в R , следующий:
library(spdep)
library(maptools)
NC <- readShapePoly(system.file("etc/shapes/sids.shp", package="spdep")[1],ID="FIPSNO", proj4string=CRS("+proj=longlat +ellps=clrk66"))
rn <- sapply(slot(NC, "polygons"), function(x) slot(x, "ID"))
NB <- read.gal(system.file("etc/weights/ncCR85.gal", package="spdep")[1], region.id=rn)
n <- length(NB)
set.seed(4956)
x.norm <- rnorm(n)
rho <- 0.3 # autoregressive parameter
W <- nb2listw(NB) # Generate spatial weights
# Generate autocorrelated datasets (one normally distributed the other skewed)
x.norm.auto <- invIrW(W, rho) %*% x.norm # Generate autocorrelated values
x.skew.auto <- exp(x.norm.auto) # Transform orginal data to create a 'skewed' version
# Run permutation tests
MCI.norm <- moran.mc(x.norm.auto, listw=W, nsim=9999)
MCI.skew <- moran.mc(x.skew.auto, listw=W, nsim=9999)
# Display p-values
MCI.norm$p.value;MCI.skew$p.value
Обратите внимание на разницу в P-значениях. Перекошенные данные указывают на то, что нет кластеризации при уровне значимости 5% (p = 0,167), тогда как нормально распределенные данные указывают на наличие (p = 0,013).
Чаошен Чжан, Лин Луо, Вейлин Сюй, Валери Ледвит, Использование местных Моран I и ГИС для определения горячих точек загрязнения свинца в городских почвах Голуэя, Ирландия, Наука об общей окружающей среде, том 398, выпуски 1–3, 15 июля 2008 года Страницы 212-221