У меня есть несколько наборов данных порядка тысяч точек. Значения в каждом наборе данных: X, Y, Z, относящиеся к координате в пространстве. Z-значение представляет собой разницу высот в координатной паре (x, y).
Как правило, в моей области ГИС ошибка превышения указывается в RMSE путем вычитания точки истинности относительно точки измерения (точки данных LiDAR). Обычно используется минимум 20 контрольных точек. Используя это значение RMSE, в соответствии с NDEP (Национальным руководством по цифровым отметкам) и рекомендациями FEMA, можно рассчитать меру точности: Точность = 1,96 * RMSE.
Эта точность указывается следующим образом: «Фундаментальная вертикальная точность - это величина, по которой вертикальная точность может быть оценена и сопоставлена между наборами данных на справедливой основе. Фундаментальная точность рассчитывается при доверительном уровне 95% как функция среднеквадратичного среднеквадратичного отклонения».
Я понимаю, что 95% площади под кривой нормального распределения находится в пределах 1,96 * стандартное отклонение, однако это не относится к СКО.
Обычно я задаю этот вопрос: используя RMSE, вычисленную по наборам 2-х данных, как я могу связать RMSE с некоторой точностью (т. Е. 95 процентов моих точек данных находятся в пределах +/- X см)? Кроме того, как я могу определить, нормально ли распространяется мой набор данных, используя тест, который хорошо работает с таким большим набором данных? Что является «достаточно хорошим» для нормального распределения? Должно ли p <0,05 для всех тестов или оно должно соответствовать форме нормального распределения?
Я нашел очень хорошую информацию по этой теме в следующей статье:
http://paulzandbergen.com/PUBLICATIONS_files/Zandbergen_TGIS_2008.pdf