Я выпускник факультета бизнеса и экономики, который в настоящее время учится на степень магистра в области инженерии данных. Во время изучения линейной регрессии (LR), а затем анализа временных рядов (TS) у меня возник вопрос. Зачем создавать новый метод, т. Е. Временные ряды (ARIMA), вместо использования множественной линейной регрессии и добавления к ней лаговых переменных (порядок лагов определяется с помощью ACF и PACF)? Поэтому учитель предложил мне написать небольшое эссе по этому вопросу. Я не пришел бы искать помощь с пустыми руками, поэтому я провел исследование по этой теме.
Я уже знал, что при использовании LR, если предположения Гаусса-Маркова нарушаются, регрессия OLS является неправильной, и что это происходит при использовании данных временных рядов (автокорреляция и т. Д.). (еще один вопрос по этому поводу, одно предположение GM заключается в том, что независимые переменные должны быть нормально распределены? или только зависимая переменная обусловлена независимыми переменными?)
Я также знаю, что при использовании регрессии распределенного лага, которая, как мне кажется, я здесь предлагаю, и использовании OLS для оценки параметров, может возникнуть (очевидно) мультиколлинеарность между переменными, поэтому оценки будут неверными.
В аналогичном посте о TS и LR , @IrishStat сказал:
... модель регрессии является частным случаем модели передаточной функции, также известной как модель динамической регрессии или модель XARMAX. Характерным моментом является то, что идентификация модели во временных рядах, т.е. соответствующие различия, соответствующие задержки X, соответствующая структура ARIMA, надлежащая идентификация неопределенной детерминированной структуры, такой как импульсы, сдвиги уровней, тренды локального времени, сезонные импульсы и включение изменения параметров или ошибки дисперсии должны быть рассмотрены.
(Я также читал его статью в Autobox о Box Jenkins против LR.) Но это все еще не решает мой вопрос (или, по крайней мере, он не проясняет для меня различную механику RL и TS).
Очевидно, что даже с лаговыми переменными возникают проблемы OLS, и они не эффективны и не корректны, но при использовании максимальной вероятности эти проблемы сохраняются? Я читал, что ARIMA оценивается по максимальной вероятности, поэтому, если LR с лагами оценивается с ML вместо OLS, это дает «правильные» коэффициенты (давайте предположим, что мы также включаем слагаемые с задержкой ошибок, как MA порядка д).
Короче, проблема в OLS? Решена ли проблема с применением ML?