Зачем использовать DV с задержкой в качестве инструментальной переменной?

12

Я унаследовал некоторый код анализа данных, который, не будучи эконометриком, я изо всех сил пытаюсь понять. Одна модель запускает регрессию инструментальных переменных с помощью следующей команды Stata

ivreg my_dv var1 var2 var3 (L.my_dv = D2.my_dv D3.my_dv D4.my_dv)

Этот набор данных представляет собой панель с несколькими последовательными наблюдениями для этого набора переменных.

Почему этот код использует запаздывающие значения DV в качестве инструментов? Насколько я понимаю (от копания в старом учебнике), оценка IV используется, когда есть проблема из-за корреляции регрессора с термином ошибки. Однако ничего не упоминается о выборе лагов DV в качестве инструментов.

Комментарий к этой строке кода упоминает «причинность». Любая помощь в выяснении того, что было целью здесь, была бы очень кстати.

regression stata instrumental-variables

— laramichaels
источник

Из вашего вопроса вы, возможно, читаете код немного неправильно. Синтаксис использует различия в качестве «инструментов» для оценки отставания зависимой переменной.

— Энди W

Лара: не могли бы вы отредактировать свой вопрос, чтобы объяснить в понятных терминах значение кода stata?

— user603

7

Изменить: учитывая разъяснение кода Stata, представленное Энди W ниже, я изменил свой ответ, чтобы лучше ответить на вопрос. Вы найдете старую версию моего ответа ниже текущей.

Кажется, ваш код - неуклюжая попытка поделить оценку Ареллано-Бонда (при условии оценки ivreg с 2SOLS). Вы можете найти более подробную информацию об использовании и логике оценки A / B в этой прекрасной обзорной статье , а также в этом более широком внедрении.

В двух словах и в трех строках: хотя оценщик A / B действительно является (обобщенным) оценщиком IV, он не используется для решения какой-либо проблемы причинности. IV в этом контексте используются для обеспечения эффективной оценки коэффициента AR в контексте данных панели.

Я бы рекомендовал не изобретать колесо здесь, а вместо этого использовать готовый набор инструментов для выполнения таких оценок. Для stata вы можете использовать пакет XTABOND2 (или XTABOND, если вы используете STAT11).

старый ответ:

Простой пример поможет вам здесь. Предположим, у вас есть две переменные и выбранные во времени, так что корреляция между и очень высока. Вы хотели бы заявить о том, что вызывает но, к сожалению, существует очень хорошая конкурирующая и заслуживающая доверия теория, согласно которой вызывает . $x_t$ $y_t$ $x_t$ $y_t$ $x_t$ $y_t$ $y_t$ $x_t$

Чтобы распутать две конкурирующие модели, вы регрессируете на (вместо ). Часто вы теряете в точности (т.е. корреляция между переменными, выбранными в разное время, обычно ниже, чем корреляция между переменными, выбранными одновременно). $y_t$ $x_{t-1}$ $x_t$

То, как две конкурирующие модели - и - теперь распутаны, заключается в том, что, по-видимому, не существует хорошей теории, согласно которой из одного период назад может быть вызван текущим («прошлое не может быть вызвано будущим»), исключая второе чувство причинности. $y_t\leftarrow x_{t-1}$ $x_{t-1} \leftarrow y_{t}$ $x$ $y$

Обратите внимание, что использование этого трюка допустимо только в том случае, если обе переменные ( и являются стационарными ). $y_t$ $x_{t-1}$ $I(0)$

— user603
источник

+1 Согласитесь с такой трактовкой о том, что она похожа на DIY Arellano-Bond. NB: Я считаю, что Ареллано-Бонд заслуживает доверия только тогда, когда число поперечных сечений очень велико - например, во многих сотнях. Арельано намекает на это в своих статьях и учебниках, указывая, что согласованность заключается в количестве единиц поперечного сечения, и скорость сходимости не такая уж быстрая.

— Cyrus S

5

Я не знаю Stata, поэтому я не могу комментировать конкретную модель. Но использование лаговых переменных является довольно распространенным подходом, когда речь идет о смещении одновременности в целом и создании инструментальных переменных в частности.

Скажем, у вас есть обратная связь между двумя переменными в вашей модели: независимой переменной (такой как цена) и зависимой переменной (такой как количество). Тогда оба являются эндогенными (их причины возникают изнутри модели), и возмущения в отношении ошибки будут влиять на обе переменные.

Чтобы решить эту проблему, необходимо сделать независимую переменную (цену) экзогенной, чтобы возмущения в ошибке влияли только на зависимую переменную (количество). Это достигается путем создания новых экзогенных переменных путем регрессии других экзогенных переменных в вашей модели по цене. Эти новые экзогенные переменные являются вашими инструментальными переменными (IV). IV получены из экзогенных терминов и, следовательно, не связаны с ошибкой.

Но для этого вам нужно выяснить, какие переменные являются экзогенными, чтобы их можно было использовать для получения IV. Можно отметить, что отстающие переменные «встречались» в прошлом и, следовательно, не могут быть соотнесены с ошибкой в настоящем. Таким образом, лаговые переменные являются экзогенными и становятся удобными кандидатами для получения IV. (Тем не менее, обратите внимание, что предыдущий аргумент не выполняется, когда ошибки автокоррелируются.)

Хорошее введение и ссылка на это - Вводная эконометрика: современный подход Вулдриджа.

— АРС
источник

5

Для тех, кто не знаком со следующим фрагментом кода из Stata, предоставляется OP

ivreg my_dv var1 var2 var3 (L.my_dv = D2.my_dv D3.my_dv D4.my_dv)

это уравнение можно прочитать как

$Y_t = \alpha + \beta_1 (Var1) + \beta_2 (Var1) + \beta_3 (Var1) + \beta_4 (\tilde{Y}_{t-1})$

где оценивается как $\tilde{Y}_{t-1}$

$\tilde{Y}_{t-1} = \alpha + Z_1(\Delta^{2}Y_t) + Z_2(\Delta^{3}Y_t) + Z_3(\Delta^{4}Y_t)$

(т.е. первая стадия уравнения IV находится в скобках в коде Stata)

Дельты представляют разности второго, третьего и четвертого порядка и используются как исключенные инструменты для оценки отставания зависимой переменной.

В коде Stata знак L.указывает на отставание этой переменной на и обозначает различия первого порядка этой переменной, и, следовательно, обозначает разницу второго порядка. $t-1$ D.D2.

По сути, я не мог придумать логических рассуждений, почему кто-то будет это делать. Но Квак указал (ссылаясь на эту статью ), что метод Ареллано-Бонда использует различия в качестве инструментов для оценки авторегрессивного компонента модели. (Также изначально я предполагал, что различия будут иметь эффект только в том случае, если ряд нестационарен, и Бонд утверждает, что различия будут слабыми инструментами в случае случайного блуждания ряда, на стр. 21 )

В качестве предложений для дальнейшего чтения материала, как введение в инструментальные переменные,

Другой постер в этом ответе (Чарли) связан с некоторыми слайдами, которые он подготовил, которые мне нравятся и которые я бы посоветовал. Я также предложил бы эту точку зрения, которую мой профессор подготовил для семинара в качестве вступительного слова. В качестве последнего предложения для тех, кто заинтересован в том, чтобы узнать больше об инструментальных переменных, вы должны посмотреть на работу Джошуа Ангриста.

Вот мой первоначальный ответ

Хотя я согласен со всем, что заявили Квак и Арс, я все еще не могу придумать причину, по которой кто-то использовал бы различия зависимой переменной в качестве инструментов для оценки отставания зависимой переменной (если люди не знают код Stata, L.указывает на отставание этой переменной на , и обозначает различия первого порядка этой переменной, и, следовательно, означает различие второго порядка). $t-1$ D.D2.

Во всех приложениях, которые я видел, люди используют лаг независимых переменных как инструменты для оценки отставания зависимой переменной (по причинам, о которых говорит Арс). Но это основано на предположении, что отстающие независимые переменные являются экзогенными по отношению к члену ошибки в период времени, в котором они применяются.

Я не знаю каких-либо рассуждений, в которых различия зависимой переменной считались бы экзогенными. Насколько мне известно, не принято практиковать различие только одной стороны уравнения, и это может привести к довольно нелогичным результатам ( вот статья, в которой кто-то критикует обратную ситуацию, в которой они включали уровень переменных в качестве предиктора разностный ряд.) Если вы переставляете члены в уравнении IV, то на самом деле это выглядит как расширенный тест Дики Фуллера.

Хотя самым простым ответом было бы спросить человека, написавшего код, может ли кто-нибудь привести пример, в котором эта процедура была бы приемлемой, или какая-нибудь ситуация, в которой эта процедура вернула бы некоторые значимые результаты? Как и я, я не могу придумать каких-либо логических доводов, почему различия будут влиять на уровни, за исключением случая, когда ряд нестационарен.

— Энди У
источник

Привет Энди. Я не знаю код stata. Вот почему я не упоминаю код, указанный в моем ответе, который следует понимать как ответ на ту часть вопроса, которая сформулирована на английском языке.

— user603

@kwak - я не критиковал ваш пост, я согласен со всем, что вы сказали. Мне просто было интересно, есть ли какая-то логика относительно того, почему кто-то использует различия в качестве инструментов, о которых я не знал. Я не могу представить себе ситуацию, в которой различия соответствовали бы какому-либо из требований такой процедуры.

— Энди W

Привет Энди:> Я не принял твой комментарий как критика. Ваш пост высвечивает ключевой аспект вопроса, который ни Роб, ни я (по общему признанию) не поняли. Во всяком случае, это иллюстрирует важность сотрудничества.

— user603

+1. Раньше не видел всего этого - спасибо, что обратили внимание на проблему, а также на курс мини-кеша по нотации stata. Я принял ваш первый комментарий, чтобы понять, что интерпретация была ошибочной, и ответил в очень общем смысле. Я рад, что вы были более настойчивы, и этот квак понял это.

— АРС

Зачем использовать DV с задержкой в ​​качестве инструментальной переменной?

Зачем использовать DV с задержкой в качестве инструментальной переменной?