Тестирование на автокорреляцию: Юнг-Бокс против Бреуша-Годфри


35

Я привык видеть, что тест Юнга-Бокса довольно часто используется для проверки автокорреляции в исходных данных или в остатках модели. Я почти забыл, что существует другой тест на автокорреляцию, а именно тест Бреуша-Годфри.

Вопрос: каковы основные различия и сходства тестов Юнга-Бокса и Бреуша-Годфри и когда следует отдавать предпочтение одному из них?

(Ссылки приветствуются. Каким-то образом мне не удалось найти каких-либо сравнений двух тестов, хотя я просмотрел несколько учебников и искал материалы в Интернете. Мне удалось найти описания каждого теста отдельно , но меня интересует то, что сравнение двух.)

Ответы:


36

В сообществе эконометрики есть некоторые сильные голоса против обоснованности Q статистики Льюнга-Бокса для тестирования автокорреляции на основе остатков от авторегрессионной модели (то есть с лаговыми зависимыми переменными в матрице регрессора), см., В частности, Maddala (2001) «Введение в эконометрику» (3-е издание), гл. 6.7 и 13. 5 с . 528. Маддала буквально оплакивает широкое использование этого теста и вместо этого считает уместным тест «множителя Лангранжа» Бреуша и Годфри.

Аргумент Маддалы против теста Льюнга-Бокса тот же, что и против другого вездесущего теста автокорреляции, «Дурбина-Ватсона»: с лаговыми зависимыми переменными в матрице регрессора этот тест смещен в пользу сохранения нулевой гипотезы «отсутствие автокорреляции» (результаты Монте-Карло, полученные в @javlacalle, отвечают этому факту). Маддала также упоминает о низкой мощности теста, см., Например, Davies, N., & Newbold, P. (1979). Некоторые исследования мощности теста Portmanteau спецификации модели временных рядов. Биометрика, 66 (1), 153-155 .

Хаяси (2000) , гл. 2.10 «Тестирование на последовательную корреляцию» , представляет единый теоретический анализ, и я считаю, проясняет этот вопрос. Хаяси начинается с нуля: для того, чтобы статистикаЛьюнга-Боксабыла асимптотически распределена как хи-квадрат, это должен быть случай, когда процесс { z t } (независимо от того, чтопредставляет z ), выборочные автокорреляции которого мы вводим в статистику, в соответствии с нулевой гипотезой об отсутствии автокорреляции - мартингально-разностная последовательность, т. е. что она удовлетворяетQ{zt}z

E(ztzt1,zt2,...)=0

а также проявляет «собственную» условную гомоскедастичность

E(zt2zt1,zt2,...)=σ2>0

В этих условиях статистика Льюнга-Бокса (которая является вариантом с поправкой на конечные выборки исходного Q- статистики Бокса-Пирса ) имеет асимптотически распределение хи-квадрат, и ее использование имеет асимптотическое обоснование. QQ

Предположим теперь, что мы указали модель авторегрессии (которая, возможно, включает в себя также независимые регрессоры в дополнение к лаговым зависимым переменным), скажем,

yt=xtβ+ϕ(L)yt+ut

где - многочлен в операторе запаздывания, и мы хотим проверить последовательную корреляцию, используя остатки оценки. Таким образом , здесь г ту т . ϕ(L)ztu^t

Хаяси показывает, что для того, чтобы статистика Юнга-Бокса, основанная на выборочных автокорреляциях остатков, имела асимптотическое распределение хи-квадрат при нулевой гипотезе отсутствия автокорреляции, должен быть случай, когда все регрессоры являются «строго экзогенными». « к ошибке термин в следующем смысле:Q

E(xtus)=0,E(ytus)=0t,s

«Для всех » является ключевым требованием, которое отражает строгую экзогенность. И это не имеет места, когда в матрице регрессора существуют лаговые зависимые переменные. Это легко увидеть: установите s = t - 1, а затемt,ss=t1

E[ytut1]=E[(xtβ+ϕ(L)yt+ut)ut1]=

E[xtβut1]+E[ϕ(L)ytut1]+E[utut1]0

даже если не зависят от члена ошибки, и даже если член ошибки не имеет автокорреляции : член E [ ϕ ( L ) y tu t - 1 ] не равен нулю. XE[ϕ(L)ytut1]

Но это доказывает, что статистика по Юнгу-Боксу недопустима в авторегрессионной модели, поскольку нельзя сказать, что она имеет асимптотическое распределение хи-квадрат под нулем.Q

Предположим теперь, что выполняется более слабое условие, чем строгая экзогенность, а именно

E(utxt,xt1,...,ϕ(L)yt,ut1,ut2,...)=0

Сила этого условия - «между» строгой экзогенностью и ортогональностью. При нуле отсутствия автокорреляции термина ошибки, это условие является «автоматически» удовлетворено авторегрессиями модели относительно отставали зависимые переменные (для «S следует отдельно считать , конечно).X

Затем существует другая статистика, основанная на остаточных автокорреляциях выборки (а не Юнга-Бокса), которая имеет асимптотическое распределение хи-квадрат под нулем. Это другая статистика может быть вычислена, как удобство, с помощью «вспомогательной регрессии» маршрута: регресс невязки на полной матрице регрессора и на последних остатков (до Отставание мы использовали в описании), получить нецентрированный R 2 из этой вспомогательной регрессии и умножить его на размер выборки.{u^t} R2

Эта статистика используется в том, что мы называем «тестом Брейша-Годфри для последовательной корреляции» .

Тогда оказывается, что, когда регрессоры включают в себя лаговые зависимые переменные (и во всех случаях авторегрессионных моделей также), от теста Льюнга-Бокса следует отказаться в пользу теста Бреуша-Годфри Л.М. Не потому, что «оно хуже», а потому, что оно не обладает асимптотическим обоснованием. Впечатляющий результат, особенно если судить по повсеместному присутствию и применению первых.

ОБНОВЛЕНИЕ: Отвечая на сомнения, высказанные в комментариях относительно того, применимо ли все вышеизложенное также к «чистым» моделям временных рядов или нет (то есть без « » -регрессоров), я опубликовал подробное исследование для модели AR (1), в https://stats.stackexchange.com/a/205262/28746 .x


Очень впечатляет, Алекос! Отличное объяснение! Спасибо большое! (Я надеюсь, что в конечном итоге многие люди прочтут ваш ответ и получат от него пользу в своей работе или учебе.)
Ричард Харди,

+1 Очень интересно. Мое первоначальное предположение состояло в том, что в модели AR распределение теста BG может искажаться, но, как вы объяснили и предложили имитационное упражнение, тест LB подвергается более серьезному воздействию.
Javlacalle

Проблема с вашим ответом состоит в том, что он основан на предположении, что мы имеем дело с ARMAX-подобной моделью, то есть с регрессорами . не чистый временной ряд, такой как AR. xt
Аксакал

1
@Aksakal, Кроме того, часть проблемы может заключаться в том, что фокус немного скачет здесь и там. Мы должны отделить вопросы (1), какой из тестов лучше от (2), какой тест работает при каких допущениях, и, что важно, (3) какой тест работает для какой модели (из-за различных допущений модели). Последний, пожалуй, самый полезный вопрос для практикующих. Например, я бы не использовал LB для остатков модели ARMA из-за того, что показал Alecos. Вы утверждаете, что LB все еще можно использовать для остатков моделей ARMA (что теперь также является центральным вопросом в другом потоке)?
Ричард Харди

1
@Alexis И это комментарий, слишком лестный, чтобы быть правдой. Спасибо.
Алекос Пападопулос

12

догадка

Я не знаю ни одного исследования, сравнивающего эти тесты. У меня было подозрение, что тест Льюнга-Бокса больше подходит в контексте моделей временных рядов, таких как модели ARIMA, где объясняющие переменные являются лагами зависимых переменных. Тест Брейша-Годфри может быть более подходящим для общей модели регрессии, где соблюдаются классические предположения (в частности, экзогенные регрессоры).

Моя гипотеза состоит в том, что на распределение критерия Бреуша-Годфри (который основывается на остатках от регрессии, подобранных обычными наименьшими квадратами) может повлиять тот факт, что объясняющие переменные не являются экзогенными.

Я провёл небольшое симуляционное упражнение, чтобы проверить это, и результаты говорят об обратном: тест Бреуша-Годфри работает лучше, чем тест Льюнга-Бокса, при тестировании автокорреляции в остатках авторегрессионной модели. Подробности и R-код для воспроизведения или изменения упражнения приведены ниже.


Малое симуляционное упражнение

Типичным применением теста Льюнга-Бокса является проверка на последовательную корреляцию в остатках от подобранной модели ARIMA. Здесь я генерирую данные из модели AR (3) и подгоняю модель AR (3).

Остатки удовлетворяют нулевой гипотезе об отсутствии автокорреляции, поэтому следует ожидать равномерно распределенных p-значений. Нулевая гипотеза должна быть отвергнута в процентах случаев, близких к выбранному уровню значимости, например, 5%.

Тест Юнга-Бокса:

## Ljung-Box test
n <- 200 # number of observations
niter <- 5000 # number of iterations
LB.pvals <- matrix(nrow=niter, ncol=4)
set.seed(123)
for (i in seq_len(niter))
{
  # Generate data from an AR(3) model and store the residuals
  x <- arima.sim(n, model=list(ar=c(0.6, -0.5, 0.4)))
  resid <- residuals(arima(x, order=c(3,0,0)))
  # Store p-value of the Ljung-Box for different lag orders
  LB.pvals[i,1] <- Box.test(resid, lag=1, type="Ljung-Box")$p.value
  LB.pvals[i,2] <- Box.test(resid, lag=2, type="Ljung-Box")$p.value
  LB.pvals[i,3] <- Box.test(resid, lag=3, type="Ljung-Box")$p.value
  LB.pvals[i,4] <- Box.test(resid, lag=4, type="Ljung-Box", fitdf=3)$p.value
}
sum(LB.pvals[,1] < 0.05)/niter
# [1] 0
sum(LB.pvals[,2] < 0.05)/niter
# [1] 0
sum(LB.pvals[,3] < 0.05)/niter
# [1] 0
sum(LB.pvals[,4] < 0.05)/niter
# [1] 0.0644
par(mfrow=c(2,2))
hist(LB.pvals[,1]); hist(LB.pvals[,2]); hist(LB.pvals[,3]); hist(LB.pvals[,4])

Ljung-Box test p-values

Результаты показывают, что нулевая гипотеза отвергается в очень редких случаях. Для уровня 5% уровень отклонений намного ниже, чем 5%. Распределение p-значений показывает смещение в сторону отсутствия отклонения от нуля.

Правка В принципе fitdf=3должна быть установлена ​​во всех случаях. Это будет учитывать степени свободы, которые теряются после подбора модели AR (3) для получения остатков. Однако для лагов порядка ниже 4 это приведет к отрицательным или нулевым степеням свободы, что сделает тест неприменимым. Согласно документации ?stats::Box.test: Эти тесты иногда применяются к остаткам из ARMA (p, q), в этом случае ссылки предлагают лучшее приближение к распределению нулевой гипотезы, полученному путем установки fitdf = p+q, при условии, конечно, что lag > fitdf.

Тест Брейша-Годфри:

## Breusch-Godfrey test
require("lmtest")
n <- 200 # number of observations
niter <- 5000 # number of iterations
BG.pvals <- matrix(nrow=niter, ncol=4)
set.seed(123)
for (i in seq_len(niter))
{
  # Generate data from an AR(3) model and store the residuals
  x <- arima.sim(n, model=list(ar=c(0.6, -0.5, 0.4)))
  # create explanatory variables, lags of the dependent variable
  Mlags <- cbind(
    filter(x, c(0,1), method= "conv", sides=1),
    filter(x, c(0,0,1), method= "conv", sides=1),
    filter(x, c(0,0,0,1), method= "conv", sides=1))
  colnames(Mlags) <- paste("lag", seq_len(ncol(Mlags)))
  # store p-value of the Breusch-Godfrey test
  BG.pvals[i,1] <- bgtest(x ~ 1+Mlags, order=1, type="F", fill=NA)$p.value
  BG.pvals[i,2] <- bgtest(x ~ 1+Mlags, order=2, type="F", fill=NA)$p.value
  BG.pvals[i,3] <- bgtest(x ~ 1+Mlags, order=3, type="F", fill=NA)$p.value
  BG.pvals[i,4] <- bgtest(x ~ 1+Mlags, order=4, type="F", fill=NA)$p.value
}
sum(BG.pvals[,1] < 0.05)/niter
# [1] 0.0476
sum(BG.pvals[,2] < 0.05)/niter
# [1] 0.0438
sum(BG.pvals[,3] < 0.05)/niter
# [1] 0.047
sum(BG.pvals[,4] < 0.05)/niter
# [1] 0.0468
par(mfrow=c(2,2))
hist(BG.pvals[,1]); hist(BG.pvals[,2]); hist(BG.pvals[,3]); hist(BG.pvals[,4])

Breusch-Godfrey test p-values

Результаты теста Бреуша-Годфри выглядят более разумно. Значения p распределены равномерно, а показатели отклонения ближе к уровню значимости (как и ожидалось при нулевой гипотезе).


1
LB.pvals[i,j]j{1,2,3}j3fitdf=3j{1,2,3}

Кроме того, относительно того, что вы говорите в первом абзаце: не могли бы вы рассказать об этом немного? Я считаю высказывания там довольно важными, но детали отсутствуют. Я могу просить слишком много - «переварить» вещи для меня - но если бы это не было для вас слишком сложным, я был бы признателен за это.
Ричард Харди,

1
nχ2(1)χ2(n)nχ2(1)kχ2(nk)knk

1
klag<fitdf

1
Короче говоря, если вы скажете, что для лагов порядка ниже 4 это приведет к отрицательным или нулевым степеням свободы, что сделает тест неприменимым , я думаю, вам следует сделать другой вывод: не используйте тест для этих лагов. Если вы продолжите, установив fitdf=0вместо себя, fitdf=3вы можете обманывать себя.
Ричард Харди

2

Грин (Эконометрический анализ, 7-е издание, стр. 963, раздел 20.7.2):

Xetxtesxt

(Я знаю, что вопрос задает вопрос о Юнг-Боксе, а вышесказанное относится к Боксу-Пирсу, но первый является простым уточнением последнего, и, следовательно, любое сравнение между ГБ и ВР также применимо к сравнению между ГБ и ЛБ.)

Как другие ответы уже объяснили более строго, Грин также предполагает, что от использования Ljung-Box против Godfrey-Breusch выиграть нечего (кроме, возможно, некоторой вычислительной эффективности), но потенциально можно многое потерять (достоверность теста).


0

Похоже, что тесты Бокса-Пирса и Льюнга-Бокса в основном являются одномерными, но есть некоторые предположения, стоящие за тестом Бреуша-Годфри при тестировании, если линейная структура не учитывается в остатках регрессии временных рядов (процесс MA или AR).

Вот ссылка на обсуждение:

http://www.stata.com/meeting/new-orleans13/abstracts/materials/nola13-baum.pdf


Я не совсем понимаю смысл предложения из-за грамматики, я думаю. Не могли бы вы перефразировать это?
Ричард Харди

0

Основное различие между тестами заключается в следующем:

  • Тест Брейша-Годфри является тестом множителя Лагранжа, полученным из (правильно определенной) функции правдоподобия (и, следовательно, из первых принципов).

  • Тест Юнга-Бокса основан на вторых моментах остатков стационарного процесса (и, следовательно, сравнительно более случайного характера).

Тест Бреуша-Годфри в качестве теста множителя Лагранжа асимптотически эквивалентен равномерно наиболее мощному тесту. Как бы то ни было, это лишь асимптотически наиболее мощный вариант альтернативной гипотезы опущенных регрессоров (независимо от того, являются ли они отстающими переменными или нет). Сильной стороной теста Юнга-Бокса может быть его сила против широкого спектра альтернативных гипотез.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.