В зависимости от того, что именно вы подразумеваете под «3 повторения в квартал», может иметь смысл модель панельных данных ( википедия ). Это будет означать, что вы проводите три измерения за квартал, по одному от каждого из трех разных источников, которые остаются неизменными с течением времени. Ваши данные будут выглядеть примерно так:
obs quarter value
A 1 2.2
A 2 2.3
A 3 2.4
B 1 1.8
B 2 1.7
B 3 1.6
C 1 3.3
C 2 3.4
C 3 3.5
Если это то, на что вы смотрите, есть ряд моделей для работы с данными панели. Вот достойная презентация, которая охватывает некоторые из основных R, которые вы бы использовали для просмотра данных панели. Этот документ углубляется, хотя и с точки зрения эконометрики.
Однако, если ваши данные не совсем соответствуют методологиям панельных данных, есть другие инструменты, доступные для «объединенных данных». Определение из этой статьи (pdf) :
Объединение данных означает статистический анализ с использованием нескольких источников данных, касающихся нескольких групп населения. Он включает в себя усреднение, сравнение и общие интерпретации информации. Различные сценарии и проблемы также возникают в зависимости от того, являются ли источники данных и группы населения одинаковыми / похожими или различными.
Как вы можете видеть из этого определения, методы, которые вы собираетесь использовать, будут зависеть от того, что именно вы ожидаете узнать из ваших данных.
Если бы я предложил вам место для начала, предполагая, что ваши три ничьи для каждого квартала согласованы с течением времени, я бы сказал, начните с использования оценщика с фиксированными эффектами (также известного как внутриоценочный оценщик) с панельной моделью данных вашего данные.
Для моего примера выше, код будет выглядеть примерно так:
> Panel = data.frame(value=c(2.2,2.3,2.4,1.8,1.7,1.9,3.3,3.4,3.5),
quarter=c(1,2,3,1,2,3,1,2,3),
obs=c("A","A","A","B","B","B","C","C","C"))
> fixed.dum <-lm(value ~ quarter + factor(obs), data=Panel)
> summary(fixed.dum)
Что дает нам следующий результат:
Call:
lm(formula = value ~ quarter + factor(obs), data = Panel)
Residuals:
1 2 3 4 5 6 7
-1.667e-02 -8.940e-17 1.667e-02 8.333e-02 -1.000e-01 1.667e-02 -1.667e-02
8 9
1.162e-16 1.667e-02
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.13333 0.06055 35.231 3.47e-07 ***
quarter 0.08333 0.02472 3.371 0.019868 *
factor(obs)B -0.50000 0.04944 -10.113 0.000162 ***
factor(obs)C 1.10000 0.04944 22.249 3.41e-06 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.06055 on 5 degrees of freedom
Multiple R-squared: 0.9955, Adjusted R-squared: 0.9928
F-statistic: 369.2 on 3 and 5 DF, p-value: 2.753e-06
Здесь мы можем ясно увидеть влияние времени в коэффициенте на переменную четверти, а также влияние нахождения в группе B или группе C (в отличие от группы A).
Надеюсь, что это указывает вам куда-то в правильном направлении.