У меня есть данные для сети метеостанций по всей территории Соединенных Штатов. Это дает мне фрейм данных, который содержит дату, широту, долготу и некоторое измеренное значение. Предположим, что данные собираются один раз в день и определяются погодой регионального масштаба (нет, мы не будем вдаваться в это обсуждение).
Я хотел бы показать графически, как одновременно измеренные значения коррелируют во времени и пространстве. Моя цель - показать региональную однородность (или ее отсутствие) исследуемой ценности.
Набор данных
Для начала я взял группу станций в районе Массачусетса и Мэна. Я выбрал сайты по широте и долготе из файла индекса, который доступен на FTP-сайте NOAA.
Сразу же вы видите одну проблему: есть много сайтов, которые имеют сходные идентификаторы или очень близки. FWIW, я идентифицирую их, используя коды USAF и WBAN. Глядя вглубь метаданных, я увидел, что они имеют разные координаты и высоты, и данные останавливаются на одном участке, а затем на другом. Так что, поскольку я не знаю ничего лучше, я должен рассматривать их как отдельные станции. Это означает, что данные содержат пары станций, которые находятся очень близко друг к другу.
Предварительный анализ
Я попытался сгруппировать данные по календарному месяцу, а затем вычислить регрессию обычных наименьших квадратов между различными парами данных. Затем я строю корреляцию между всеми парами в виде линии, соединяющей станции (ниже). Цвет линии показывает значение R2 из соответствия OLS. Затем на рисунке показано, как более 30 точек данных за январь, февраль и т. Д. Коррелируют между различными станциями в интересующей области.
Я написал базовые коды так, чтобы среднесуточное значение рассчитывалось только при наличии точек данных каждые 6 часов, поэтому данные должны быть сопоставимы по сайтам.
Проблемы
К сожалению, на одном сюжете просто слишком много данных для понимания. Это не может быть исправлено уменьшением размера линий.
Сеть кажется слишком сложной, поэтому я думаю, что мне нужно найти способ уменьшить сложность или применить какое-то пространственное ядро.
Я также не уверен, какой показатель является наиболее подходящим для показа корреляции, но для предполагаемой (нетехнической) аудитории коэффициент корреляции из OLS может быть проще всего объяснить. Возможно, мне также потребуется представить некоторую другую информацию, такую как градиент или стандартная ошибка.
Вопросов
Я изучаю свой путь в этой области и R одновременно, и буду признателен за предложения по:
- Какое официальное название для того, что я пытаюсь сделать? Есть ли полезные термины, которые позволили бы мне найти больше литературы? Мои поиски рисуют пробелы для того, что должно быть обычным приложением.
- Существуют ли более подходящие методы для отображения корреляции между несколькими наборами данных, разделенными в пространстве?
- ... в частности, методы, которые легко показать результаты визуально?
- Какие-нибудь из них реализованы в R?
- Любой из этих подходов поддается автоматизации?