Построение временного ряда, включающего несколько наблюдений для каждой даты

11

Я пытаюсь применить временной ряд к ежеквартальным данным выборки (биомасса животных) за 10-летний период с 3 повторениями в квартал. Итак, 40 дат, но всего 120 наблюдений.

Я прочитал до SARIMA'а в Shumway и Stoffer's Анализ временных рядов и его приложений, а также просмотрел Woodward, et. Прикладной анализ временных рядов, и я понимаю, что каждая модель основана на одном наблюдении в каждой точке временного ряда.

ВОПРОС: Как я могу включить вариации в каждое наблюдение в моей модели? Я мог бы построить серию на основе, но я потерял бы вариации при каждом наблюдении, и я думаю, что это имеет решающее значение для моего понимания происходящего.

r time-series

SARIMA может быть распространен на многовариантный случай, который может подойти для вас. Ключевое слово в этом случае - VAR. Это означает, что вы наблюдаете вектор чисел вместо одного числа для каждого периода времени.

— mpiktas

4

В зависимости от того, что именно вы подразумеваете под «3 повторения в квартал», может иметь смысл модель панельных данных ( википедия ). Это будет означать, что вы проводите три измерения за квартал, по одному от каждого из трех разных источников, которые остаются неизменными с течением времени. Ваши данные будут выглядеть примерно так:

obs quarter value
  A       1   2.2 
  A       2   2.3 
  A       3   2.4 
  B       1   1.8 
  B       2   1.7 
  B       3   1.6 
  C       1   3.3 
  C       2   3.4 
  C       3   3.5

Если это то, на что вы смотрите, есть ряд моделей для работы с данными панели. Вот достойная презентация, которая охватывает некоторые из основных R, которые вы бы использовали для просмотра данных панели. Этот документ углубляется, хотя и с точки зрения эконометрики.

Однако, если ваши данные не совсем соответствуют методологиям панельных данных, есть другие инструменты, доступные для «объединенных данных». Определение из этой статьи (pdf) :

Объединение данных означает статистический анализ с использованием нескольких источников данных, касающихся нескольких групп населения. Он включает в себя усреднение, сравнение и общие интерпретации информации. Различные сценарии и проблемы также возникают в зависимости от того, являются ли источники данных и группы населения одинаковыми / похожими или различными.

Как вы можете видеть из этого определения, методы, которые вы собираетесь использовать, будут зависеть от того, что именно вы ожидаете узнать из ваших данных.

Если бы я предложил вам место для начала, предполагая, что ваши три ничьи для каждого квартала согласованы с течением времени, я бы сказал, начните с использования оценщика с фиксированными эффектами (также известного как внутриоценочный оценщик) с панельной моделью данных вашего данные.

Для моего примера выше, код будет выглядеть примерно так:

> Panel = data.frame(value=c(2.2,2.3,2.4,1.8,1.7,1.9,3.3,3.4,3.5), 
                     quarter=c(1,2,3,1,2,3,1,2,3), 
                     obs=c("A","A","A","B","B","B","C","C","C"))
> fixed.dum <-lm(value ~ quarter + factor(obs), data=Panel)
> summary(fixed.dum)

Что дает нам следующий результат:

Call:
lm(formula = value ~ quarter + factor(obs), data = Panel)

Residuals:
         1          2          3          4          5          6          7 
-1.667e-02 -8.940e-17  1.667e-02  8.333e-02 -1.000e-01  1.667e-02 -1.667e-02 
         8          9 
 1.162e-16  1.667e-02 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.13333    0.06055  35.231 3.47e-07 ***
quarter       0.08333    0.02472   3.371 0.019868 *  
factor(obs)B -0.50000    0.04944 -10.113 0.000162 ***
factor(obs)C  1.10000    0.04944  22.249 3.41e-06 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Residual standard error: 0.06055 on 5 degrees of freedom
Multiple R-squared: 0.9955, Adjusted R-squared: 0.9928 
F-statistic: 369.2 on 3 and 5 DF,  p-value: 2.753e-06

Здесь мы можем ясно увидеть влияние времени в коэффициенте на переменную четверти, а также влияние нахождения в группе B или группе C (в отличие от группы A).

Надеюсь, что это указывает вам куда-то в правильном направлении.

— Wilduck
источник

3

Я думаю, что это интересно. Мое предложение состояло бы в том, чтобы усреднить три точки данных, чтобы получить гладкий временной ряд, чтобы соответствовать. Как вы указываете, если вы делаете это, игнорируя, что вы взяли в среднем три наблюдения, которые вы выбрасываете информацию. Но для каждого момента времени вы можете суммировать квадратичные отклонения от среднего. Объедините эти суммы квадратов за все периоды времени и разделите на n-1, где n - общее количество точек, использованных в расчете. Если у вас есть модель со структурой временного ряда (например, тренды, сезонный компонент, структура зависимости AR), этот расчет может быть независимой и беспристрастной оценкой дисперсии члена ошибки в модели.

— Майкл Р. Черник
источник

1

+1 за полезную идею, которая легко выполняется и теоретически обоснована. Одна небольшая поправка: в течение периодов времени будет наблюдаться значений . Несмещенная оценка дисперсии разделит сумму всех квадратов отклонений на , а не на или (одно из них существенно отличается и ошибочно). Вероятно, следует также составить отдельные оценки дисперсии (по одной на период времени) с течением времени, чтобы оценить, законно ли объединять их все таким образом.

3 n

$3n$

n

$n$

3 n

$3n$

2 n

$2n$

n - 1

$n-1$

3 n - 1

$3n-1$

— whuber