Я наблюдаю регрессионную модель, которая регрессирует доходность фондовых индексов в годовом исчислении по годичным (12 месяцев) доходностям одного и того же фондового индекса, кредитному спреду (разница между среднемесячным значением безрисковых облигаций и корпоративных облигаций). доходности), инфляция в годовом исчислении и индекс промышленного производства в годовом сопоставлении.
Это выглядит следующим образом (хотя в этом случае вы бы подставили данные, специфичные для Индии):
SP500YOY(T) = a + b1*SP500YOY(T-12) + b2*CREDITSPREAD(T) +
b4*INDUSTRIALPRODUCTION(T+2) + b3*INFLATION(T+2) + b4*INFLATIONASYMM(T+2)
SP500YOY - это годовой доход по индексу SP500. Для вычисления этого среднемесячные значения SP500 вычисляются, а затем преобразуются в годовой доход за каждый месяц (т.е. январь-10-январь-11, февраль-10- 11 февраля, 11 марта - 11 марта.). Что касается поясняющих переменных, используется 12-месячное запаздывающее значение SP500YOY вместе с CREDITSPREAD в момент времени T, а два периода вперед - ИНФЛЯЦИЯ и ПРОМЫШЛЕННОЕ ПРОИЗВОДСТВО. INFLATIONASYMM является фиктивной для того, превышает ли инфляция пороговое значение 5,0%. Индекс в скобках показывает индекс времени для каждой переменной.
Это оценивается с помощью стандартной линейной регрессии МНК. Чтобы использовать эту модель для прогнозирования годовой доходности SP500 на 1,2 и 3 месяца вперед, необходимо создать прогноз на 3,4 и 5 месяцев для инфляции и индекса промышленного производства. Эти прогнозы делаются после подбора модели ARIMA для каждого из двух в отдельности. Прогнозы CreditSpread на 1,2 и 3 месяца вперед просто представлены в качестве ментальных оценок.
Я хотел бы знать, является ли эта линейная регрессия OLS правильной / неправильной, эффективной / неэффективной или общепринятой статистической практикой.
Первая проблема, которую я вижу, заключается в использовании перекрывающихся данных. т.е. ежедневные значения фондового индекса усредняются каждый месяц, а затем используются для расчета годовых доходов, которые пролонгируются ежемесячно. Это должно сделать термин ошибки автокоррелированным. Я бы подумал, что нужно использовать некоторую «коррекцию» в строках одного из следующих действий:
- Гетероскедастичность белых в соответствии с оценкой ковариации
- Оценка согласованности гетероскедастичности и автокорреляции (HAC) Ньюи и Уэста
- согласованная с гетероскедастичностью версия Hansen & Hodrick
Действительно ли имеет смысл применять стандартную линейную регрессию OLS (без каких-либо исправлений) к таким перекрывающимся данным и, более того, использовать прогноз ARIMA на 3 периода вперед для пояснительных переменных, чтобы использовать в исходной линейной регрессии OLS для прогнозирования SP500YOY? Я не видел такой формы раньше и, следовательно, не могу судить о ней, за исключением исправления для использования перекрывающихся наблюдений.