Предположения наименьших квадратов

Предположим следующую линейную зависимость: , где - зависимая переменная, - одна независимая переменная, а - термин ошибки. $Y_i = \beta_0 + \beta_1 X_i + u_i$ $Y_i$ $X_i$ $u_i$

Согласно Stock & Watson (Введение в эконометрику; глава 4 ), третье предположение о наименьших квадратах состоит в том, что четвертые моменты и ненулевые и конечные . $X_i$ $u_i$ $(0<E(X_i^4)<\infty \text{ and } 0<E(u_i^4)<\infty)$

У меня три вопроса:

Я не до конца понимаю роль этого предположения. Является ли OLS предвзятым и противоречивым, если это предположение не выполняется или нам нужно это предположение для вывода?
Сток и Уотсон пишут, что «это предположение ограничивает вероятность проведения наблюдения с чрезвычайно большими значениями или ». Тем не менее, моя интуиция заключается в том, что это предположение является крайним. Мы в беде, если у нас есть большие выбросы (такие, что четвертые моменты большие), но если эти значения все еще конечны? Кстати: что является основным определением выброса? $X_i$ $u_i$
Можем ли мы переформулировать это следующим образом: "эксцесс и ненулевой и конечный?" $X_i$ $u_i$

— бакалавр
источник

К сожалению, я не могу написать полноценный ответ сейчас, но чтобы ответить на ваш вопрос: 1, согласованность OLS работает независимо. 2, четкого определения выбросов не существует, но OLS отлично работает в большой выборке при наличии выбросов. 3, для моей жизни я не могу вспомнить пример, где это не будет правдой, но кто-то может доказать, что я не прав, так что никаких гарантий

— Repmat

Я спорю "но OLS отлично работает в большой выборке при наличии выбросов" ... достаточно большой выброс в x-пространстве (т.е. влиятельное наблюдение), и одна точка может заставить LS пройти через него; если это также выброс в направлении Y, ваша линия все равно будет идти через эту точку, независимо от того, насколько она экстремальна.

— Glen_b

Выбросы легко определить. Они являются наблюдениями, не соответствующими структуре данных. Как показывает пример Glen_b, такие точки оказывают неоправданное влияние на подгонку, в то время как предел перевешивает все другие наблюдения в наборе данных, что приводит к сильно смещенным оценкам.

— user603

@ user603 Конечно ... ну и что ... Мне еще не приходилось сталкиваться с программой / сценарием, который автоматически обнаруживает выбросы и делает это так, что мы все согласны с тем, что это правильный путь ... поэтому, хотя я согласен с вашим мнением, это не помогает OP

— Repmat

@ Repmat: пожалуйста, перечитайте вопрос ОП. Мой комментарий прямо отвечает на одно из предложений, отмеченных знаком вопроса.

— user603

Ответы:

Вам не нужны предположения о 4-х моментах для согласованности оценки OLS, но вам нужны предположения о более высоких моментах и для асимптотической нормальности и для последовательной оценки, что такое асимптотическая ковариационная матрица. $x$ $\epsilon$

В некотором смысле это математическая, техническая, а не практическая точка зрения. Для правильной работы OLS в конечных выборках в некотором смысле требуется нечто большее, чем минимальные предположения, необходимые для достижения асимптотической согласованности или нормальности при . $n \rightarrow \infty$

Достаточные условия для согласованности:

Если у вас есть уравнение регрессии:

y_{i} = x_{i}^{'} β + ϵ_{i}

$y_i = \mathbf{x}_i' \boldsymbol{\beta} + \epsilon_i$

Оценщик OLS может быть записан как: $\hat{\mathbf{b}}$

\hat{b} = β + {(\frac{X^{'} X}{n})}^{- 1} (\frac{X^{'} ϵ}{n})

$\hat{\mathbf{b}} = \boldsymbol{\beta} + \left( \frac{X'X}{n}\right)^{-1}\left(\frac{X'\boldsymbol{\epsilon}}{n} \right)$

Для согласованности вы должны уметь применять закон больших чисел Колмогорова или, в случае временных рядов с последовательной зависимостью, что-то вроде эргодической теоремы Карлина и Тейлора, чтобы:

\frac{1}{n} X^{'} X \overset{p}{\to} E [x_{i} x_{i}^{'}] \frac{1}{n} X^{'} ϵ \overset{p}{\to} E [x_{i}^{'} ϵ_{i}]

$\frac{1}{n} X'X \xrightarrow{p} \mathrm{E}[\mathbf{x}_i\mathbf{x}_i'] \quad \quad \quad \frac{1}{n} X'\boldsymbol{\epsilon} \xrightarrow{p} \mathrm{E}\left[\mathbf{x}_i' \epsilon_i\right]$

Другие необходимые предположения:

$\mathrm{E}[\mathbf{x}_i\mathbf{x}_i']$ является полным рангом и, следовательно, матрица обратима.
Регрессоры являются предопределенными или строго экзогенными, поэтому . $\mathrm{E}\left[\mathbf{x}_i \epsilon_i\right] = \mathbf{0}$

Тогда и вы получите $\left( \frac{X'X}{n}\right)^{-1}\left(\frac{X'\boldsymbol{\epsilon}}{n} \right) \xrightarrow{p} \mathbf{0}$ $\hat{\mathbf{b}} \xrightarrow{p} \boldsymbol{\beta}$

Если вы хотите, чтобы центральная предельная теорема для применения , то вам нужно предположений о более высоких моментах, например, , где . Центральная предельная теорема дает вам асимптотическую нормальность и позволяет говорить о стандартных ошибках. Чтобы существовал второй момент , вам нужны 4-ые моменты и . Вы хотите утверждать, что где $\mathrm{E}[\mathbf{g}_i\mathbf{g}_i']$ $\mathbf{g_i} = \mathbf{x}_i \epsilon_i$ $\hat{\mathbf{b}}$ $\mathrm{E}[\mathbf{g}_i\mathbf{g}_i']$ $x$ $\epsilon$ $\sqrt{n}\left(\frac{1}{n} \sum_i \mathbf{x}_i' \epsilon_i \right) \xrightarrow{d} \mathcal{N}\left( 0, \Sigma \right)$ $\Sigma = \mathrm{E}\left[\mathbf{x}_i\mathbf{x}_i'\epsilon_i^2 \right]$ . Чтобы это работало, должна быть конечной. $\Sigma$

Хорошее обсуждение (которое мотивировало этот пост) дано в Эконометрике Хаяси . (См. Также стр. 149 для 4-х моментов и оценки ковариационной матрицы.)

Обсуждение:

Эти требования к 4-м моментам, вероятно, скорее технические, чем практические. Вы, вероятно, не будете встречать патологические распределения, где это является проблемой в повседневных данных? Это для более распространенных или других предположений OLS, чтобы пойти не так, как надо.

Другой вопрос, на который, несомненно, ответили в другом месте на Stackexchange, заключается в том, какой размер выборки вам нужен, чтобы конечные выборки приблизились к асимптотическим результатам. В некотором смысле фантастические выбросы приводят к медленной конвергенции. Например, попробуйте оценить среднее логнормальное распределение с действительно высокой дисперсией. Среднее значение выборки является последовательной, беспристрастной оценкой среднего значения популяции, но в этом логарифмическом случае с сумасшедшим избыточным эксцессом и т. Д. (Перейдите по ссылке) конечные результаты выборки действительно не соответствуют действительности.

Конечное против бесконечного - чрезвычайно важное различие в математике. Это не проблема, с которой вы сталкиваетесь в повседневной статистике. Практические проблемы больше в категории «маленький против большого». Является ли дисперсия, эксцесс и т. Д. Достаточно малой, чтобы я мог получить разумные оценки с учетом размера моей выборки?

Патологический пример, где оценка OLS является последовательной, но не асимптотически нормальной

Рассматривать:

y_{i} = b x_{i} + ϵ_{i}

$y_i = b x_i + \epsilon_i$ Где но взят из t-распределения с 2 степенями свободы, таким образом, . Оценка OLS сходится по вероятности к но выборочное распределение для оценки OLS обычно не распространяется. Ниже приведено эмпирическое распределение для основанное на 10000 симуляциях регрессии с 10000 наблюдениями.

x_{i} \sim N (0, 1)

$x_i \sim \mathcal{N}(0,1)$

ϵ_{i}

$\epsilon_i$

V a r (ϵ_{i}) = \infty

$\mathrm{Var}(\epsilon_i) = \infty$

b

$b$

\hat{b}

$\hat{b}$

\hat{b}

$\hat{b}$

QQPlot для оценщика (не сходится в распределении к нормальному)

Распределение ненормально, хвосты слишком тяжелые. Но если вы увеличите степени свободы до 3, чтобы существовал второй момент тогда применяется центральный предел, и вы получите: $\hat{b}$ $\epsilon_i$

Код для его генерации:

beta = [-4; 3.7];
n = 1e5;    
n_sim = 10000;    
for s=1:n_sim
    X = [ones(n, 1), randn(n, 1)];  
    u  = trnd(2,n,1) / 100;
    y = X * beta + u;

    b(:,s) = X \ y;
end
b = b';
qqplot(b(:,2));

— Мэтью Ганн
источник

Хороший ответ. Но следующее действительно зависит от контекста: вы не встретите патологические распределения с несуществующими 4-мя моментами в повседневных данных. Финансовые данные (отчет о доходах по финансовым активам), как правило, носят тяжелый характер, чтобы не иметь конечного четвертого момента. Так что беспокойство о 4-м моменте очень реально там. (Возможно, вы можете добавить это в качестве контрпримера в скобках к вашему заявлению.) Кроме того, вопрос: в вашем примере, почему дает асимптотическую нормальность, несмотря на отсутствие конечного 4-го момента?

t (3)

$t(3)$

— Ричард Харди

@RichardHardy Вы хотите где . Вам нужен этот четвертый момент для существования, и - это второй момент в когда не коррелирует с .

\sqrt{n} (\frac{1}{n} \sum_{i} x_{i} ϵ_{i}) \overset{d}{\to} N (0, Σ)

$\sqrt{n}\left( \frac{1}{n} \sum_i \mathbf{x}_i \epsilon_i \right) \xrightarrow{d} \mathcal{N}\left( \mathbf{0}, \Sigma \right)$

Σ = E [x_{i} x_{i}^{'} ϵ_{i}^{2}]

$\Sigma = \mathrm{E}[\mathbf{x}_i\mathbf{x}_i'\epsilon_i^2]$

Σ

$\Sigma$

Σ

$\Sigma$

ϵ_{i}

$\epsilon_i$

ϵ_{i}^{2}

$\epsilon_i^2$

x_{i} x_{i}^{'}

$\mathbf{x}_i\mathbf{x}_i'$

— Мэтью Ганн

Это достаточное предположение, но не минимальное [1]. В этих условиях МНК не предвзята, она просто противоречива. Асимптотические свойства OLS нарушаются, когда может иметь чрезвычайно большое влияние и / или если вы можете получить очень большие невязки. Возможно, вы не сталкивались с формальным изложением центральной предельной теоремы Линдеберга Феллера, но это то, к чему они обращаются здесь с условиями четвертого момента, и условие Линдеберга говорит нам в основном то же самое: нет чрезмерных точек влияния, нет чрезмерно высокого кредитного плеча очки [2]. $X$
Эти теоретические основы статистики вызывают много путаницы, когда сводятся к практическим приложениям. Нет определения выброса, это интуитивное понятие. Чтобы понять это примерно, наблюдение должно быть точкой высокого рычага или точкой высокого влияния, например такой, для которой диагностика удаления (DF бета) очень велика, или для которой расстояние Махаланобиса в предикторах велико (в одномерной статистике) это просто оценка Z). Но давайте вернемся к практическим вопросам: если я проведу случайный опрос людей и доходов их домохозяйств, и из 100 человек 1 из выбранных мной людей станет миллионером, я думаю, что миллионеры представляют 1% населения. , В лекции по биостатистике эти принципы обсуждаются и подчеркивается, что любой диагностический инструмент по существу является исследовательским [3].не «анализ, который исключает выбросы - это тот, которому я верю», это «удаление одной точки полностью изменило мой анализ».
Куртоз - это масштабированная величина, которая зависит от второго момента распределения, но предположение о конечной ненулевой дисперсии для этих значений является молчаливым, поскольку это свойство невозможно сохранить в четвертый момент, но не во второй. В общем, да, но в целом я никогда не проверял ни эксцесс, ни четвертый момент. Я не считаю их практической или интуитивной мерой. В этот день, когда гистограмма или график рассеяния создаются щелчком пальцев, мы должны использовать качественную графическую диагностическую статистику, проверяя эти графики.

[1] /math/79773/how-does-one-prove-that-lindeberg-condition-is-satisfied

[2] http://projecteuclid.org/download/pdf_1/euclid.ss/1177013818

[3] http://faculty.washington.edu/semerson/b517_2012/b517L03-2012-10-03/b517L03-2012-10-03.html

— Adamo
источник

Как указывалось ранее, интуиция о выбросах разрушается, когда их несколько. Они не обязательно будут выделяться на бета-графике DF или иметь большие z-оценки, потому что сами эти статистические данные могут колебаться от выбросов. Как мы уже говорили ранее, выбросы , если их не проверять, будут давать смещенные коэффициенты, если вы не удалите их или не будете использовать надежную для них методику оценки.

— user603

Я думаю, в более общем плане, когда вы выражаете свое мнение, ваши ответы могли бы получить путем включения указателей на соответствующую литературу, чтобы ОП знал, какое из этих мнений широко распространено.

— user603

@ user603 К вашему первому комментарию я не указал на DFbetas (или любой диагностический инструмент) как на эксклюзивный метод для определения выбросов, но, безусловно, полезный. При выполнении полупараметрических выводов (средняя модель верна) выбросы НЕ смещают модели LS. Можете ли вы дать ссылку или даже пример в любом случае, кроме непараметрического LS? Ваш второй комментарий хороший, и я возьму следующие несколько минут, чтобы привести цитаты.

— AdamO

Ваше утверждение «МНК не является предвзятым в этих условиях, оно просто противоречиво» неверно. Более высокие моменты необходимы для асимптотической нормальности. Они не нужны для согласованности в образцах IID, где применяется закон больших чисел Колмогорова.

— Мэтью Ганн