Двухэтапные модели: разница между моделями Хекмана (для выбора образцов) и инструментальными переменными (для работы с эндогенностью)

16

Я пытаюсь осмыслить разницу между отбором выборки и эндогенностью и, в свою очередь, чем модели Хекмана (для выбора выборки) отличаются от инструментальных переменных регрессий (для решения проблемы эндогенности).

Правильно ли говорить, что отбор образцов является специфической формой эндогенности, где эндогенная переменная - это вероятность лечения?

Кроме того, мне кажется, что обе модели Хекмана и регрессия IV являются двухэтапными моделями, где первая стадия предсказывает вероятность лечения - я предполагаю, что они должны различаться с точки зрения того, что они делают эмпирически, их целей и предположений, но как?

— Кирения
источник

23

Чтобы ответить на ваш первый вопрос, вы правы в том, что отбор образцов является специфической формой эндогенности (см. Antonakis et al. 2010 для хорошего базового обзора эндогенности и общих лекарств), однако вы не правы, говоря о вероятности лечения является эндогенной переменной, так как это сама переменная лечения («неслучайное назначение лечения»), а не вероятность лечения, которая является эндогенной при отборе образцов. Напомним, что эндогенность относится к ситуации, когда вы неправильно определили причинно-следственную связь между фактором X и фактором Y, когда наблюдаемая «связь» на самом деле обусловлена другим фактором Z, который влияет как на X, так и на Y. Иными словами, учитывая регрессионную модель :

$y_i=\beta_0+\beta_1x_i+...+\epsilon_i$

Эндогенность возникает, когда один или несколько из ваших предикторов связаны с термином ошибки в модели. То есть когда . $Cov(x,\epsilon)\ne0$

Общие причины эндогенности включают в себя:

Пропущенные переменные (некоторые вещи, которые мы просто не можем измерить)
- Мотивация / выбор
- Способность / талант
- Самоотбор
Ошибка измерения (мы хотели бы включить , но мы наблюдаем только ) $x_j$ $x_j*$
Одновременность / двунаправленность (у детей младше 5 лет взаимосвязь между показателем состояния питания «вес для возраста» и наличием у ребенка недавнего заболевания может быть одновременной).

Различные типы задач требуют немного разных решений, в этом и заключается разница между поправками типа IV и типа Хекмана. Конечно, существуют отличия в основной механике этих методов, но предпосылка та же: для устранения эндогенности, в идеале через ограничение исключения, т.е. один или несколько инструментов в случае IV или переменная, которая влияет на выбор, но не результат в случае Хекмана.

Чтобы ответить на ваш второй вопрос, вы должны подумать о различиях в типах ограничений данных, которые привели к разработке этих решений. Мне нравится думать, что подход инструментальных переменных (IV) используется, когда одна или несколько переменных являются эндогенными, и в модели просто нет хороших прокси, которые можно было бы использовать для удаления эндогенности, но ковариаты и результаты наблюдаются для всех наблюдений. Поправки типа Хекмана, с другой стороны, используются, когда у вас есть усечение, то есть информация не наблюдается для тех в выборке, где значение переменной выбора == 0.

Инструментально-переменный (IV) подход

Вспомните классический эконометрический пример регрессии IV с оценкой двухэтапных наименьших квадратов (2SLS): влияние образования на заработок.

(1) $Earnings_i=\beta_0+ \beta_1OwnEd_i + \epsilon_i$

Здесь уровень образовательных достижений является эндогенным, поскольку он определяется отчасти мотивацией и способностями человека, которые также влияют на заработок человека. Мотивация и способности обычно не измеряются в домашних или экономических исследованиях. Следовательно, уравнение 1 может быть написано так, чтобы явно включать мотивацию и способность:

(2) $Earnings_i=\beta_0+ \{\beta_1OwnEd_i + \beta_2Motiv_i + \beta_3Abil_i\} + \epsilon_i$

Поскольку и фактически не соблюдаются, уравнение 2 можно записать в виде: $Motiv$ $Abil$

(3), $Earnings_i=\beta_0+ \beta_1OwnEd_i + u_i$

где (4). $u_i=\beta_2Motiv_i + \beta_3Abil_i + \epsilon_i$

Поэтому наивная оценка влияния образования на заработки с помощью МНК будет предвзятой. Эту часть вы уже знаете.

В прошлом люди использовали образование родителей в качестве инструментов для собственного уровня образования субъекта, так как они соответствуют 3 требованиям для действующего инструмента ( ): $z$

должен быть связан с эндогенным предиктором - , $z$ $𝐶𝑜𝑣(𝑧,𝑥)≠0$
не может быть напрямую связан с результатом - , и $z$ $𝐶𝑜𝑣(𝑧,𝑦)=0$
нельзя отнести к ненаблюдаемой (u) характеристике (то есть экзогенно) - $z$ $z$ $𝐶𝑜𝑣(𝑧,𝑢)=0$

Когда вы оцениваете образование субъекта ( ), используя образование родителей ( и ) на первом этапе, и используете прогнозируемую ценность образования ( ) для оценки на втором этапе, вы (в очень упрощенно), оценивая на основе части $OwnEd$ $MomEd$ $DadEd$ $\widehat{OwnEd}$ $Earnings$ $Earnings$ , которое не определяется мотивацией / способностью. $OwnEd$

Поправки типа Хекмана

Как мы установили ранее, неслучайный отбор образцов является специфическим типом эндогенности. В этом случае пропущенная переменная - это то, как люди были выбраны в выборку. Как правило, когда у вас есть проблемы с отбором выборки, ваш результат наблюдается только для тех, для кого отбор выборки variable == 1. Эта проблема также известна как «случайное усечение», а решение широко известно как поправка Хекмана. Классическим примером в эконометрике является предложение заработной платы замужних женщин:

(5 ) $Wage_i = \beta_0 + \beta_1Educ_i + \beta_2Experience_i + \beta_3Experience^2_i+\epsilon_i$

Проблема здесь состоит в том , что наблюдается только для женщин, работающих по найму, поэтому наивный оценка будет смещена, так как мы не знаем , что предложение заработной платы для тех , кто не принимает участия в рабочей силе, выбор переменная . Уравнение 5 можно переписать, чтобы показать, что оно совместно определяется двумя скрытыми моделями: $Wage$ $s$

(6) $Wage_i^* = X\beta^\prime+\epsilon_i$

(7) $LaborForce_i^* = Z\gamma^\prime+\nu_i$

То есть IFF и IFF $Wage = Wage_i^*$ $LaborForce_i^*>0$ $Wage = .$ $LaborForce_i^*\leq 0$

Решение здесь поэтому прогнозировать вероятность участия в рабочей силе на первом этапе с использованием модели пробита и ограничения исключения (те же критерии для действительных документов , применимы и здесь), вычислить предсказывали обратное соотношение Миллс ( ) для каждого наблюдения , а на втором этапе, оценить предложение заработной платы с использованием как предсказатель в модели (Wooldridge 2009). Если коэффициент при статистически равно нулю, нет никаких доказательств образец селекции (эндогенностью) и МНК результаты согласуются и могут быть представлены. Если коэффициент при $\hat{\lambda}$ $\hat{\lambda}$ $\hat{\lambda}$ $\hat{\lambda}$ статистически значимо отличается от нуля, вам нужно будет сообщить коэффициенты от скорректированной модели.

Ссылки

Антонакис, Джон, Самуэль Бендахан, Филипп Жакварт и Рафаэль Лалив. 2010. «О предъявлении причинных претензий: обзор и рекомендации» . Руководство ежеквартально 21 (6): 1086–1120. DOI: 10.1016 / j.leaqua.2010.10.010.
Вулдридж, Джеффри М. 2009. Вводная эконометрика: современный подход. 4-е изд. Мейсон, штат Огайо, США: Юго-Запад, Cengage Learning.

— Маркиз де Карабас
источник

1

В интерпретации типа Хекмана, как интерпретировать значения обратного коэффициента Миллса для каждого наблюдения? Говорит ли это количество людей, которые будут работать из неработающего населения в данный момент?

— Quirik

2

Следует проводить различие между конкретной моделью отбора образцов Хекмана (где наблюдается только одна выборка) и поправками типа Хекмана для самостоятельного выбора, которые также могут работать для случая, когда наблюдаются две выборки. Последнее называется подходом к функции управления и включает в ваш второй этап термин, определяющий эндогенность.

Давайте представим стандартный случай с фиктивной фиктивной переменной D, инструментом Z:

Y знак равно β + β_{1} D + ε

$Y= \beta + \beta_1 D +\epsilon$

D знак равно γ + γ_{1} Z + U

$D= \gamma + \gamma_1 Z +u$

Оба подхода проходят первый этап (D на Z). IV использует стандартный OLS (даже если D - фиктивный), Хекман использует пробит. Но помимо этого, основное отличие заключается в том, как они используют этот первый этап в главном уравнении:

IV : разрушить эндогенность путем разложения D на части, не связанные с $\epsilon$ , учитывая предсказание D: $Y= \beta + \beta_1 \hat{D}+\epsilon$
Хекман : смоделируйте эндогенность: сохраните эндогенный D, но добавьте функцию предсказанных значений первой стадии. Для этого случая это довольно сложная функция: $Y= \beta + \beta_1 D + \beta_2 \left[\lambda(\hat{D})-\lambda(-\hat{D})\right ] +\epsilon$ где $\lambda()$ отношение обратных Миллса

Преимущество процедуры Хекмана заключается в том, что она обеспечивает прямой тест на эндогенность: коэффициент $\beta_2$ , С другой стороны, процедура Хекмана основывается на предположении о совместной нормальности ошибок, в то время как IV не делает такого предположения.

Таким образом, у вас есть стандартная история о том, что с обычными ошибками функция управления будет более эффективной (особенно если они используют MLE вместо показанного здесь двухэтапного шага), чем IV, но если допущение не выполняется, IV будет лучше. Поскольку исследователи стали более подозрительно относиться к предположению о нормальности, IV используется чаще.

— Matifou
источник

0

От Heckman, Urzua и Vytlacil (2006):

Пример систематической ошибки выбора : рассмотрим влияние политики на результаты страны (например, ВВП). Если страны, которые добились бы хороших результатов с точки зрения ненаблюдаемости даже в отсутствие политики, являются теми, которые принимают политику, то оценки OLS являются предвзятыми.

Для решения этой проблемы были приняты два основных подхода : (а) модели выбора и (б) инструментальные модели переменных.

Подход выбора моделирует уровни условных средств. Подход IV моделирует склоны условных средних. IV не идентифицирует константы, оцененные в моделях выбора.

Подход IV не обусловливает D (лечение). Оценщик выбора (функции управления) идентифицирует условные средства с использованием функций управления.

При использовании функций управления с допущениями на кривизну не требуется ограничение исключения (не требует $Z\neq X$ ) в выборе модели. Принимая функциональную форму для распределения слагаемых ошибок, можно исключить возможность того, что условное среднее из конечного уравнения равно условной функции управления, и, таким образом, вы можете исправить выбор без ограничений на исключение. См. Также Хекман и Наварро (2004).

— Хосе Габриэль Астаиза-Гомес
источник