Как вы выбираете единицу анализа (уровень агрегации) во временном ряду?

Если вы можете измерить временной ряд наблюдений с любым уровнем точности во времени, и ваша цель исследования состоит в том, чтобы определить связь между X и Y, есть ли какое-либо эмпирическое обоснование для выбора определенного уровня агрегации по сравнению с другим, или следует выбор будет сделан просто исходя из теории и / или практических ограничений?

У меня есть три подвопроса к этому основному:

Является ли какое-либо неслучайное изменение X или Y в пределах более высокого уровня достаточным аргументом для выбора меньшего уровня агрегации (где неслучайным является какой-либо временной паттерн наблюдений)?
Являются ли какие-либо изменения в отношениях между X и Y на меньшем уровне агрегации достаточным аргументом для обоснования меньшей единицы анализа? Если какое-то отклонение является приемлемым, как можно решить, насколько много отклонений?
Могут ли люди приводить аргументы, которые, по их мнению, являются убедительными / четко определенными для одной единицы анализа над другой, либо по эмпирическим причинам, либо по теоретическим причинам?

Я хорошо осведомлен о проблеме единиц модифицируемой области в пространственном анализе ( Openshaw 1984 ). Я не претендую на то, чтобы быть экспертом в этом материале, но все, что я должен думать о нем, это то, что меньшая единица анализа всегда лучше, поскольку менее вероятно, что она совершит экологическую ошибку ( Robinson 1950 ). Если у кого-то есть прямая ссылка или ответ относительно географических единиц агрегации, я также был бы признателен за этот ответ.

time-series aggregation disaggregation

— Энди У
источник

Вступление

Мой интерес к этой теме составляет около 7 лет и привел к написанию кандидатской диссертации. Временные ряды: агрегация, дезагрегация и длинная память , где внимание было уделено конкретному вопросу о проблеме дезагрегации в поперечном разрезе для схемы AR (1).

Данные

Работая с различными подходами к агрегации, первый вопрос, который вам необходимо уточнить, - это тип данных, с которыми вы имеете дело (я думаю, пространственные, самые захватывающие). На практике вы можете рассмотреть временную агрегацию (см. Silvestrini, A. and Veridas, D. (2008) ), поперечную (мне понравилась статья Грейнджер, CWJ (1990) ) или время и пространство (пространственная агрегация хорошо изучена в Джакомини Р. и Грейнджер, CWJ (2004) ).

Ответы (длинные)

Теперь, отвечая на ваши вопросы, я поставлю сначала грубую интуицию. Поскольку проблемы, с которыми я сталкиваюсь на практике, часто основаны на неточных данных (предположение Энди

Вы можете измерить временной ряд наблюдений с любым уровнем точности во времени

кажется слишком сильным для макроэкономики, но хорошо для финансовой и микроэкономики или любых экспериментальных областей, если вы достаточно хорошо контролируете точность) Я должен иметь в виду, что мои месячные временные ряды менее точны, чем когда я работаю с годовые данные. Кроме того, более частые временные ряды, по крайней мере в макроэкономике, имеют сезонные модели , которые могут привести к ложнымрезультаты (сезонные части действительно коррелируют, а не серии), поэтому вам необходимо сезонно корректировать ваши данные - еще один источник меньшей точности для данных с более высокой частотой. Работа с данными поперечного сечения показала, что высокий уровень дезагрегации приносит больше проблем, вероятно, с множеством нулей, с которыми приходится иметь дело. Например, конкретное домохозяйство в панели данных может приобретать автомобиль один раз в 5-10 лет, но совокупный спрос на новые (подержанные) автомобили гораздо более ровный (даже для небольшого города или региона).

Самая слабая точка агрегации всегда приводит к потере информацииу вас может быть ВВП, произведенный в разрезе стран ЕС в течение всего десятилетия (скажем, в период 2001–2010 гг.), но вы потеряете все динамические характеристики, которые могут присутствовать в вашем анализе, учитывая подробный набор данных панели. Крупномасштабная агрегация поперечного сечения может оказаться еще более интересной: вы, примерно, берете простые вещи (короткая память AR (1)), усредняете их по довольно большой совокупности и получаете «представительный» агент с длинной памятью, который не похож ни на один из микро юниты (еще один камень концепции представительного агента). Таким образом, агрегация ~ потеря информации ~ различные свойства объектов, и вы хотели бы взять под контроль уровень этой потери и / или новые свойства. На мой взгляд, лучше иметь точные данные микроуровня с максимально возможной частотой, но ...

Технически, выполняя любой регрессионный анализ, вам нужно больше места (степеней свободы), чтобы быть более или менее уверенным в том, что (по крайней мере) статистически ваши результаты не являются бесполезными, хотя они все еще могут быть а-теоретическими и нежелательными :). веса для вопросов 1 и 2 (обычно выбирают квартальные данные для макроанализа). Отвечая на 3-й подвопрос, все вы решаете в практических приложениях, что для вас важнее: более точные данные или степени свободы. Если принять во внимание упомянутое предположение, более подробные (или более частые) данные предпочтительнее.

Вероятно, ответ будет отредактирован последним после некоторого обсуждения, если таковое имеется.

— Дмитрий Челов
источник

Спасибо за ответ. Мне понадобится как минимум несколько дней, чтобы обработать материалы, которые вы представили. Я также хотел бы сказать, что ваша диссертация невероятно хороша, и после прочтения вашего вступления я с нетерпением жду прочтения остальных.

— Энди В.