Минимальное количество выборок для интерполяции кригинга


19

Я получаю некоторые данные с количеством образцов с просьбой интерполировать их методом кригинга.
После некоторого исследования оказалось, что результаты кригинга (выполненные в ArcGIS Geostatistical Analyst с параметрами по умолчанию) не являются удовлетворительными. Интерполированные значения сильно отличаются от измерений (особенно верхних), и поверхность не выглядит надежной. Вот картина: введите описание изображения здесь
я полагаю, что основная проблема заключается в недостаточном количестве образцов.

Сколько очков мы должны использовать, чтобы получить надежные результаты?
Или, может быть, метод кригинга не подходит для таких отклоненных значений?


Вы сказали, что «хотя люди успешно кригнули всего семь точек данных (в монографии Роберта Джернигана, опубликованной Агентством по охране окружающей среды США в конце 1980-х годов), ...». Но я не могу найти эту статью. Можете ли вы дать открытый адрес для этой статьи? Спасибо ...
abilici

Ответы:


30

Когда вы используете «значения по умолчанию», вы на самом деле не кригинг, вы просто применяете алгоритм кригинга - который, как вы обнаружили, плох при работе с этими данными.

(Я кратко расскажу о мыльнице: на мой взгляд, самый быстрый способ получить плохие результаты с помощью компьютерной программы - это принять параметры по умолчанию. ArcGIS - одна из самых богатых и мощных сред для получения плохих результатов. Мораль такова: не пользуйтесь программным обеспечением для важной работы, пока не поймете, как им управлять. Сейчас из мыльницы ...)

Чтобы заставить работать, вам необходимо провести интенсивный предварительный статистический анализ данных, известных как «вариография». Насколько хорошо это в конечном итоге работает, зависит от данных, а также от ваших геостатистических навыков. (Целые книги были написаны о вариографии, включая основополагающую информацию о горнодобывающей промышленности от Journel & Huijbregts и Variowin Ивана Паннтье.) Хотя люди успешно кригнули всего семь точек данных (в монографии Роберта Джернигана, опубликованной Агентством по охране окружающей среды США в в конце 1980-х годов), и в принципе вы можете использовать только две или три точки (я сделал это, чтобы продемонстрировать алгоритм ), практические правила в литературе варьируются от минимум 20 до 100 баллов и консенсуса кажется, около 30 баллов.

В вашем случае - хотя вы не описываете данные - у вас есть некоторые явные проблемы, включая сильно искаженное распределение и явное отсутствие доказательств стационарности. Это требует специальной статистической обработки или специальных форм кригинга (таких как пространственная обобщенная линейная модель). Вы не получите хороших результатов при обработке таких данных, пока у вас не будет очень большого объема данных.

Легенда предполагает, что вы, возможно, пытаетесь создать сетку плотности, а не фактически интерполировать данные: хотя выходные данные двух процедур могут выглядеть одинаково, они делают совершенно разные вещи и имеют совершенно разные интерпретации. Вы интерполируете, когда данные считаются образцами с некоторой гипотетической непрерывной поверхности. Интерполяция предсказывает несэмплированные значения. Стандартные примеры включают измерения высоты (которые определяют поверхность Земли) и измерения температуры (которые определяют «температурное поле»). Вы вычисляете плотность, когда у вас есть полная информация о суммечего-то, и вы хотите представить сглаженную версию этой суммы на единицу площади. (В отличие от интерполяции, не существует каких-либо несэмплированных значений для прогнозирования.) Стандартным примером является плотность населения: данные являются подсчетами всех людей в пределах области; На выходе получается карта плотности населения.


6
Отличный ответ @whuber. Однако разве минимальное количество точек также не зависит частично от степени пространственной области и желаемой детали предсказания? Если вы перешли к проблеме выборки, то это станет вопросом захвата населения и пространственных вариаций в выборке.
Джеффри Эванс

@ Джеффри Это отчасти так. Количество данных зависит от двух факторов: дисперсии прогноза кригинга (которая варьируется в пространственной области) и точности, с которой можно оценить саму вариограмму. Последнее часто упускается из виду, особенно в традиционных методах кригинга: это своего рода слон в комнате. Если вам известна правильная вариограмма, и она имеет небольшое отношение самородков / порогов и большой диапазон по отношению к экстенту пространственной области, вы можете кригить с удивительно небольшим количеством данных, особенно если они адекватно выбирают полный диапазон значений данных.
whuber

3
Я убежден, что любой, кто использует кригинг, должен либо иметь хороший курс по геостатистике, либо иметь серьезный опыт в области ГИС / статистики. Чтобы научиться правильно моделировать вариограмму, требуется определенный навык.
Майк Т

1
Эмпирическое правило, которому я научился: 30 баллов за всенаправленный Кригинг и 100 баллов за двунаправленный.
jareks

1

Есть два отдельных вопроса, во-первых, количество местоположений данных, которые будут использоваться при оценке / моделировании вариограммы, и, во-вторых, количество местоположений данных, которые будут использоваться в уравнениях кригинга для интерполяции значения в местоположении без данных (или для оценки среднего значения над регионом). Предполагая, что вы используете подвижную область поиска, более 15-20 местоположений данных в окрестности, вероятно, ухудшат результаты, потому что (1) только самые близкие местоположения данных в окрестности поиска будут иметь ненулевые веса, (2) с большим количеством данных В местах, где размер матрицы, подлежащей обращению, больше, и вероятность плохой обусловленности матрицы возрастает. Общее количество местоположений данных, необходимых для кригинга, зависит от количества местоположений, которые должны быть интерполированы, и пространственных структур этих точек, а также от местоположений данных. Короче говоря,

Что касается оценки / моделирования вариограммы, это совсем другая проблема, см., Например,

1991, Майерс, Д.Е. Об оценке вариограмм в материалах Первого Интер. Conf. Стат. Comp., Чешме, Турция,

30 марта - 2 апреля 1987 г., том II, American Sciences Press, 261-281

1987, A. Warrick и DE Myers, Оптимизация мест отбора проб для расчетов вариограмм. Исследование водных ресурсов 23, 496-500.

Их можно скачать по адресу www.u.arizona.edu/~donaldm.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.