Как интерпретировать коэффициент второй ступени в регрессии инструментальных переменных с помощью бинарного инструмента и бинарной эндогенной переменной?

(довольно длинный пост, извините. Он включает в себя много дополнительной информации, поэтому не стесняйтесь переходить к вопросу внизу.)

Введение: я работаю над проектом, в котором мы пытаемся определить влияние двоичной эндогенной переменной, , на непрерывный результат, . Мы придумали инструмент , который, по нашему убеждению, назначен случайным образом. $x_1$ $y$ $z_1$

Данные: сами данные представлены в виде панели с около 34 000 наблюдений, распределенных по 1000 единицам и около 56 периодов времени. принимает значение 1 для около 700 (2%) наблюдений, а для около 3000 (9%). 111 (0,33%) наблюдений получают 1 балл как по и по , и для наблюдения в два раза выше вероятность получить 1 балл по если оно также дает 1 к . $x_1$ $z_1$ $z_1$ $x_1$ $x_1$ $z_1$

Оценка: Мы оцениваем следующую модель 2SLS с помощью процедуры ivreg2 Stata:

x_{1} = π_{0} + π_{1} z_{1} + Z π + v

$x_1 = \pi_0 + \pi_1z_1 + \mathbf{Z}\mathbf{\pi} + v$

y = β_{0} + β_{1} x_{1}^{*} + Z β + u

$y = \beta_0 + \beta_1 x_1^* + \mathbf{Z}\mathbf{\beta} + u$

Где - вектор других экзогенных переменных, - это прогнозируемое значение на первом этапе, а и - ошибки. $Z$ $x_1^*$ $x_1$ $u$ $v$

Результаты: Кажется, все работает хорошо; оценка очень на первом этапе, а оценка очень на втором этапе. Все признаки, как и ожидалось, в том числе для других экзогенных переменных. Проблема, однако, в том, что оценка - коэффициента интереса - неправдоподобно велика (или, по крайней мере, согласно тому, как мы его интерпретировали). $\pi_1$ $\beta_1$ $\beta_1$

$y$ колеблется от 2 до 26 со средним значением и медианой 17, но оценка колеблется от 30 до 40 (в зависимости от спецификации)! $\beta_1$

Слабая IV: Наша первая мысль состояла в том, что это было из-за слишком слабого инструмента; то есть не очень сильно коррелирует с эндогенной переменной, но на самом деле это не так. Чтобы проверить слабость инструмента, мы используем Finlay, Magnusson и слабый пакет Шаффера, так как он предоставляет тесты, которые устойчивы к нарушениям предположения (что актуально здесь, учитывая, что у нас есть данные панели и кластеризованы наши SE в уровень единицы). $i.i.d.$

Согласно их AR-тесту, нижняя граница 95% доверительного интервала для коэффициента второй ступени составляет от 16 до 29 (опять же, в зависимости от спецификации). Вероятность отклонения практически равна 1 для всех значений, близких к нулю.

Влиятельные наблюдения. Мы попытались оценить модель, когда каждая единица была удалена отдельно, каждое наблюдение удалено отдельно, а группы единиц удалены. Никаких реальных изменений.

Предлагаемое решение: кто-то предложил, чтобы мы не суммировали предполагаемый эффект инструментального в его исходной метрике (0-1), а в метрике его предсказанной версии. составляет от -0,01 до 0,1 со средним значением и медианой около 0,02 и SD около 0,018. Если бы мы суммировали предполагаемый эффект от , скажем, на увеличение SD на на один SD , то это было бы (другие спецификации дают почти идентичные результаты). Это было бы более разумным (но все же существенным). Похоже, идеальное решение. За исключением того, что я никогда не видел, чтобы кто-нибудь делал это; кажется, что каждый интерпретирует коэффициент второй ступени, используя метрику исходной эндогенной переменной. $x_1$ $x_1^*$ $x_1$ $x_1^*$ $0.018*30 = 0.54$

Вопрос: Правильно ли в IV-модели суммировать предполагаемый эффект (действительно, ПОЗЖЕ) увеличения эндогенной переменной, используя метрику ее предсказанной версии? В нашем случае эта метрика является прогнозируемой вероятностью.

Примечание: мы используем 2SLS, даже если у нас есть двоичная эндогенная переменная (что делает первый этап LPM). Это следует за Angrist & Krueger (2001): «Инструментальные переменные и поиск идентификации: от предложения и спроса до естественных экспериментов») Мы также попробовали трехэтапную процедуру, используемую в Adams, Almeida & Ferreira (2009): « Понимание взаимоотношений между учредителем – генеральным директором и эффективностью фирмы ». Последний подход, который состоит из пробитной модели, сопровождаемой 2SLS, дает меньшие и более разумные коэффициенты, но они все еще очень велики, если интерпретировать их в метрике 0-1 (около 9-10). Мы получаем те же результаты при ручных вычислениях, что и при использовании опции probit-2sls в ivtreatreg Серулли.

— Bertel
источник

Ты пробовал etregress/treatreg?

— Дмитрий Владимирович Мастеров

Привет Димитрий, спасибо за ответ! Я попробовал etregress сейчас, и он дает несколько аналогичные результаты. Однако, читая руководство Stata и Wooldridge (2002): «Эконометрический анализ данных поперечного сечения и панели», у меня складывается впечатление, что такого рода модель лечения и регрессии предполагает неосведомленность лечения. То есть, в зависимости от наблюдаемых переменных, независимо от того, лечится ли единица или нет, не зависит от ее (потенциального) результата как при лечении, так и при контроле.

— Бертель

(продолжение) По нашим данным, мы не можем в действительности поддержать это предположение; у нас просто есть источник случайного изменения . Поэтому IV кажется подходящим вариантом. Если у меня есть правильные предположения, в любом случае.

x

$x$

— Бертель

Было бы очень полезно иметь несколько графиков, например, диаграммы рассеяния или графики плотности ядра необработанных данных и остатков и т. Д. Помните, что plim , даже небольшая корреляция между инструментом и значением ошибки может привести к сильной противоречивой оценке !

{\hat{β}}_{1} = β_{1} + \frac{C o v (z_{1}, u)}{C o v (z_{1}, x_{1})}

$\hat{\beta}_1 = \beta_1 + \frac{Cov(z_1,u)}{Cov(z_1,x_1)}$

β_{1}

$\beta_1$

— Арне Йонас Варнке

Это старый вопрос, но для любого, кто наткнется на него в будущем, интуитивно оценка равна из регрессии "уменьшенной формы" $\beta_1$ $\alpha_1$

y = α_{0} + α_{1} z_{1} + Z α + u

$y = \alpha_0 + \alpha_1 z_1 + \mathbf{Z}\mathbf{\alpha} + u$

делится на от регрессии "первой стадии" $\pi_1$

x_{1} = π_{0} + π_{1} z_{1} + Z π + v

$x_1 = \pi_0 + \pi_1z_1 + \mathbf{Z}\mathbf{\pi} + v$

Поэтому, если 2SLS-оценки "неправдоподобно велики", проверьте оценки OLS для и . $\beta_1$ $\alpha_1$ $\pi_1$

Если оценки «разумны», проблема может заключаться в том, что оценки «очень малы». Разделив на «очень маленький» можно получить «невероятно большой» . $\alpha_1$ $\pi_1$ $\hat{\alpha}_1$ $\hat{\pi}_1$ $\hat{\beta}_1$

— Питер
источник