Как рассчитать меру точности на основе RMSE? Мой большой набор данных нормально распределен?


9

У меня есть несколько наборов данных порядка тысяч точек. Значения в каждом наборе данных: X, Y, Z, относящиеся к координате в пространстве. Z-значение представляет собой разницу высот в координатной паре (x, y).

Как правило, в моей области ГИС ошибка превышения указывается в RMSE путем вычитания точки истинности относительно точки измерения (точки данных LiDAR). Обычно используется минимум 20 контрольных точек. Используя это значение RMSE, в соответствии с NDEP (Национальным руководством по цифровым отметкам) и рекомендациями FEMA, можно рассчитать меру точности: Точность = 1,96 * RMSE.

Эта точность указывается следующим образом: «Фундаментальная вертикальная точность - это величина, по которой вертикальная точность может быть оценена и сопоставлена ​​между наборами данных на справедливой основе. Фундаментальная точность рассчитывается при доверительном уровне 95% как функция среднеквадратичного среднеквадратичного отклонения».

Я понимаю, что 95% площади под кривой нормального распределения находится в пределах 1,96 * стандартное отклонение, однако это не относится к СКО.

Обычно я задаю этот вопрос: используя RMSE, вычисленную по наборам 2-х данных, как я могу связать RMSE с некоторой точностью (т. Е. 95 процентов моих точек данных находятся в пределах +/- X см)? Кроме того, как я могу определить, нормально ли распространяется мой набор данных, используя тест, который хорошо работает с таким большим набором данных? Что является «достаточно хорошим» для нормального распределения? Должно ли p <0,05 для всех тестов или оно должно соответствовать форме нормального распределения?


Я нашел очень хорошую информацию по этой теме в следующей статье:

http://paulzandbergen.com/PUBLICATIONS_files/Zandbergen_TGIS_2008.pdf


4
Осторожно! Вы используете ks.test неверно. Согласно странице справки , вам нужно использовать «pnorm» вместо «dnorm». Более того, установка параметров распределения сравнения на среднее значение и SD самой выборки существенно увеличит значение p: «Если используется тест с одной выборкой, параметры, указанные в ..., должны быть предварительно определены, а не оценены из данные."
whuber

3
Ну, на самом деле, эта формула не даст вам доверительный интервал: он будет слишком большим для этого. Это действительно грубый (но стандартный) способ оценки интервала терпимости, который составляет средние 95% всей совокупности различий. Есть веские основания полагать, что различия не будут иметь нормального распределения: большие абсолютные различия, как правило, связаны с большими топографическими уклонами. Предполагая, что ваши 4000 баллов являются случайной выборкой этих различий, почему бы вам просто не сообщить их 2,5 и 97,5 процентили?
whuber

4
Ваши данные образуют статистическую выборку высот, которые могут быть измерены. Когда вы говорите о «точности», вы заявляете о том, насколько точно ваши матрицы высот представляют всю совокупность возвышений. В вашем случае невозможно оценить точность, сравнивая наборы данных: вы должны «правдить» свои данные. Таким образом, руководящие принципы действительно говорят об относительном согласии двух наборов данных. Наконец, их использование «уровня доверия» ошибочно, как я объяснил ранее. Я согласен, что вы должны работать в рамках ужасного руководства, как это, но вы заслуживаете знать, что правильно.
whuber

3
Это начинает звучать как полезный вопрос для вас. Поскольку вы еще не получили никаких ответов, почему бы вам просто не отредактировать текущий вопрос, чтобы включить информацию, которую вы раскрыли в этих комментариях? Я бы предложил несколько расширить его: после цитирования руководящих принципов (чтобы показать, какие методы обычно используются в вашей области), вы можете задать вопрос, как в целом использовать распределение упорядоченных пар различий в высотах для оценки точности (если предположить одно из наборов данных является ссылкой).
whuber

2
Все: Обновлен мой основной пост и вопрос, чтобы отразить изменения из комментариев.
Мэтью Билски

Ответы:


1

Используя RMSE, вычисленную из 2-х наборов данных, как я могу связать RMSE с некоторой точностью (т.е. 95 процентов моих точек данных находятся в пределах +/- X см)?

Взгляните на почти повторяющийся вопрос: доверительный интервал RMSE ?

Мой большой набор данных нормально распределен?

Хорошим началом было бы наблюдение за эмпирическим распределением zценностей. Вот воспроизводимый пример.

set.seed(1)
z <- rnorm(2000,2,3)
z.difference <- data.frame(z=z)

library(ggplot2)

ggplot(z.difference,aes(x=z)) + 
  geom_histogram(binwidth=1,aes(y=..density..), fill="white", color="black") +
  ylab("Density") + xlab("Elevation differences (meters)") +
  theme_bw() + 
  coord_flip()

введите описание изображения здесь

На первый взгляд выглядит нормально, да? (на самом деле, мы знаем, что это нормально, потому что rnormкоманда, которую мы использовали).

Если кто-то хочет проанализировать небольшие выборки по набору данных, есть тест нормальности Шапиро-Вилка.

z_sample <- sample(z.difference$z,40,replace=T)
shapiro.test(z_sample) #high p-value indicates the data is normal (null hypothesis)

    Shapiro-Wilk normality test

data:  z_sample
W = 0.98618, p-value = 0.8984 #normal

Можно также повторить тест SW много раз для разных небольших выборок, а затем посмотреть на распределение p-values.

Имейте в виду, что тесты нормальности на больших наборах данных не так полезны, как объяснено в этом ответе, предоставленном Грегом Сноу.

С другой стороны, с действительно большими наборами данных вступает в силу центральная предельная теорема, и для общего анализа (регрессия, t-тесты, ...) вам действительно все равно, нормально ли распределено население или нет.

Хорошее практическое правило - составить qq-сюжет и спросить, достаточно ли это нормально?

Итак, давайте сделаем QQ-сюжет:

#qq-plot (quantiles from empirical distribution - quantiles from theoretical distribution)
mean_z <- mean(z.difference$z)
sd_z <- sd(z.difference$z)
set.seed(77)
normal <- rnorm(length(z.difference$z), mean = mean_z, sd = sd_z)

qqplot(normal, z.difference$z, xlab="Theoretical", ylab="Empirical")

введите описание изображения здесь

Если точки выровнены в y=xлинии, это означает, что эмпирическое распределение соответствует теоретическому распределению, которое в данном случае является нормальным распределением.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.