Чтобы ответить на ваш первый вопрос, вы правы в том, что отбор образцов является специфической формой эндогенности (см. Antonakis et al. 2010 для хорошего базового обзора эндогенности и общих лекарств), однако вы не правы, говоря о вероятности лечения является эндогенной переменной, так как это сама переменная лечения («неслучайное назначение лечения»), а не вероятность лечения, которая является эндогенной при отборе образцов. Напомним, что эндогенность относится к ситуации, когда вы неправильно определили причинно-следственную связь между фактором X и фактором Y, когда наблюдаемая «связь» на самом деле обусловлена другим фактором Z, который влияет как на X, так и на Y. Иными словами, учитывая регрессионную модель :
yi=β0+β1xi+...+ϵi
Эндогенность возникает, когда один или несколько из ваших предикторов связаны с термином ошибки в модели. То есть когда .Cov(x,ϵ)≠0
Общие причины эндогенности включают в себя:
- Пропущенные переменные (некоторые вещи, которые мы просто не можем измерить)
- Мотивация / выбор
- Способность / талант
- Самоотбор
- Ошибка измерения
(мы хотели бы включить , но мы наблюдаем только x j ∗ )xjxj∗
- Одновременность / двунаправленность (у детей младше 5 лет взаимосвязь между показателем состояния питания «вес для возраста» и наличием у ребенка недавнего заболевания может быть одновременной).
Различные типы задач требуют немного разных решений, в этом и заключается разница между поправками типа IV и типа Хекмана. Конечно, существуют отличия в основной механике этих методов, но предпосылка та же: для устранения эндогенности, в идеале через ограничение исключения, т.е. один или несколько инструментов в случае IV или переменная, которая влияет на выбор, но не результат в случае Хекмана.
Чтобы ответить на ваш второй вопрос, вы должны подумать о различиях в типах ограничений данных, которые привели к разработке этих решений. Мне нравится думать, что подход инструментальных переменных (IV) используется, когда одна или несколько переменных являются эндогенными, и в модели просто нет хороших прокси, которые можно было бы использовать для удаления эндогенности, но ковариаты и результаты наблюдаются для всех наблюдений. Поправки типа Хекмана, с другой стороны, используются, когда у вас есть усечение, то есть информация не наблюдается для тех в выборке, где значение переменной выбора == 0.
Инструментально-переменный (IV) подход
Вспомните классический эконометрический пример регрессии IV с оценкой двухэтапных наименьших квадратов (2SLS): влияние образования на заработок.
(1)Earningsi=β0+β1OwnEdi+ϵi
Здесь уровень образовательных достижений является эндогенным, поскольку он определяется отчасти мотивацией и способностями человека, которые также влияют на заработок человека. Мотивация и способности обычно не измеряются в домашних или экономических исследованиях. Следовательно, уравнение 1 может быть написано так, чтобы явно включать мотивацию и способность:
(2)Earningsi=β0+{β1OwnEdi+β2Motivi+β3Abili}+ϵi
Поскольку и A b i l фактически не соблюдаются, уравнение 2 можно записать в виде:MotivAbil
(3),Earningsi=β0+β1OwnEdi+ui
где (4).ui=β2Motivi+β3Abili+ϵi
Поэтому наивная оценка влияния образования на заработки с помощью МНК будет предвзятой. Эту часть вы уже знаете.
В прошлом люди использовали образование родителей в качестве инструментов для собственного уровня образования субъекта, так как они соответствуют 3 требованиям для действующего инструмента ( ):z
- должен быть связан с эндогенным предиктором - 𝐶 𝑜 𝑣 ( 𝑧 , 𝑥 ) ≠ 0 ,zCov(z,x)≠0
- не может быть напрямую связан с результатом - 𝐶 𝑜 𝑣 ( 𝑧 , 𝑦 ) = 0 , иzCov(z,y)=0
- нельзя отнести к ненаблюдаемой (u) характеристике (то есть z экзогенно) - 𝐶 𝑜 𝑣 ( 𝑧 , 𝑢 ) = 0zzCov(z,u)=0
Когда вы оцениваете образование субъекта ( ), используя образование родителей ( M o m E d и D a d E d ) на первом этапе, и используете прогнозируемую ценность образования ( ^ O w n E d ) для оценки Е г н я н г ы на втором этапе, вы (в очень упрощенно), оценивая ē в г н я н г ы на основе частиOwnEdMomEdDadEdOwnEdˆEarningsEarnings , которое не определяется мотивацией / способностью.OwnEd
Поправки типа Хекмана
Как мы установили ранее, неслучайный отбор образцов является специфическим типом эндогенности. В этом случае пропущенная переменная - это то, как люди были выбраны в выборку. Как правило, когда у вас есть проблемы с отбором выборки, ваш результат наблюдается только для тех, для кого отбор выборки variable == 1
. Эта проблема также известна как «случайное усечение», а решение широко известно как поправка Хекмана. Классическим примером в эконометрике является предложение заработной платы замужних женщин:
(5 )Wagei=β0+β1Educi+β2Experiencei+β3Experience2i+ϵi
Проблема здесь состоит в том , что наблюдается только для женщин, работающих по найму, поэтому наивный оценка будет смещена, так как мы не знаем , что предложение заработной платы для тех , кто не принимает участия в рабочей силе, выбор переменная с . Уравнение 5 можно переписать, чтобы показать, что оно совместно определяется двумя скрытыми моделями:Wages
(6)Wage∗i=Xβ′+ϵi
(7)LaborForce∗i=Zγ′+νi
То есть IFF L a b o r F o r c e ∗ i > 0 и W a g e = . IFF L a b o r F o r c e ∗ i ≤ 0Wage=Wage∗iLaborForce∗i>0Wage=.LaborForce∗i≤0
Решение здесь поэтому прогнозировать вероятность участия в рабочей силе на первом этапе с использованием модели пробита и ограничения исключения (те же критерии для действительных документов , применимы и здесь), вычислить предсказывали обратное соотношение Миллс ( А ) для каждого наблюдения , а на втором этапе, оценить предложение заработной платы с использованием Л как предсказатель в модели (Wooldridge 2009). Если коэффициент при Х статистически равно нулю, нет никаких доказательств образец селекции (эндогенностью) и МНК результаты согласуются и могут быть представлены. Если коэффициент при Хλ^λ^λ^λ^ статистически значимо отличается от нуля, вам нужно будет сообщить коэффициенты от скорректированной модели.
Ссылки
- Антонакис, Джон, Самуэль Бендахан, Филипп Жакварт и Рафаэль Лалив. 2010. «О предъявлении причинных претензий: обзор и рекомендации» . Руководство ежеквартально 21 (6): 1086–1120. DOI: 10.1016 / j.leaqua.2010.10.010.
- Вулдридж, Джеффри М. 2009. Вводная эконометрика: современный подход. 4-е изд. Мейсон, штат Огайо, США: Юго-Запад, Cengage Learning.