Соответствие показателя склонности данным панели

13

У меня есть продольные данные о людях, и некоторые из них подвергались лечению, а другие - нет. Все люди находятся в выборке от рождения до 18 лет, и лечение происходит в каком-то возрасте между этими интервалами. Возраст лечения может отличаться в разных случаях. Используя сопоставление баллов предрасположенности, я хотел бы сопоставить обработанные и контрольные единицы в парах с точным сопоставлением по году рождения, чтобы можно было отслеживать каждую пару с момента их рождения до 18 лет. В общей сложности насчитывается около 150 человек, получавших лечение, и 4000 человек, не получавших лечения. После сопоставления идея состоит в том, чтобы использовать стратегию различия в различиях для оценки эффекта лечения.

Проблема, с которой я сталкиваюсь на данный момент, заключается в сопоставлении данных панели. Я использую psmatch2команду Stata, и я сопоставляю бытовые и индивидуальные характеристики с помощью сопоставления баллов склонности. В целом, с данными панели будут разные оптимальные совпадения в каждом возрасте. В качестве примера: если A лечится, B и C являются контрольными, и все они родились в 1980 году, то A и B могут совпадать в 1980 году в возрасте 0 лет, тогда как A и C сравниваются в 1981 году в возрасте 1 года и т. Д. , Также А может быть сопоставлен с его собственными значениями предварительной обработки за предыдущие годы.

Чтобы обойти эту проблему, я взяла среднее значение всех переменных во времени, так что сопоставление может идентифицировать лиц, которые в среднем наиболее похожи по продолжительности выборки, и я сопоставляю отдельно для каждой возрастной группы от 0 до 18 лет. К сожалению, это по-прежнему соответствует различным единицам управления для каждой единицы лечения в возрастной группе.

Если бы кто-то мог направить меня к методу для парного сопоставления с данными панели в Stata, это было бы очень ценно.

stata panel-data propensity-scores

— Энди
источник

9

По сути, вам нужно создать широкоформатный набор данных со всеми характеристиками, которые имеют отношение к процедуре сопоставления, выполнить сопоставление для этого набора данных поперечного сечения, а затем использовать идентификатор для идентификации сопоставленной пары в наборе данных панели. Вот еще несколько деталей:

Используйте reshapeдля создания широкоформатного набора данных. Отформатируйте переменные предварительной обработки так, как вы хотите использовать их в процедуре сопоставления. Вы можете просто взять среднее значение ваших переменных, если у вас есть несколько наблюдений для одного человека, но вы также можете придумать другие способы (вы также можете сохранить несколько наблюдений для одних и тех же переменных, таких как health1, health2 и использовать их все в соответствии ). Цель состоит в том, чтобы иметь набор данных с одним наблюдением на человека .
Используя этот набор данных, выполните процедуру сопоставления с psmatch2.
Объединить информацию о соответствующих случаях с исходным набором данных. Пропускать случаи, которые не совпадают и т. Д. Я не уверен в деталях здесь, потому что я действительно не знаю stata, psmatch2но я думаю, что вы поняли идею.

Используя эти шаги, вы можете сопоставлять случаи на основе всей информации о предварительной обработке, и у вас есть только одно соответствие на единицу лечения.

— Greg
источник

3

Я действительно не знаю, почему этот пост был отклонен, потому что этот ответ действительно помогает. Я буду голосовать снова. Спасибо, Грег!

— Энди

5

Там нет способа сделать это в Stata или любом другом программном обеспечении о котором я знаю.

Если вы пытаетесь исправить необъективную оценку соответствия с помощью методов панельных данных, вот один из подходов, который может сработать. Если вы можете предположить, что сопоставление учитывает некоторые, но не все смещения выбора, но что смещение в основном остается постоянным во времени, вы можете удалить неизменную во времени часть смещения, создав отдельные оценки соответствия в каждом периоде и приняв различия.

$t$ $t'$ $Y_0$

E [Y_{0 t} | X, D = 1] - E [Y_{0 t} | X, D = 0] = E [Y_{0 t^{'}} | X, D = 1] - E [Y_{0 t^{'}} | X, D = 0] = B i a s,

$\begin{equation} E[Y_{0t} \vert X, D=1]-E[Y_{0t} \vert X, D=0]=E[Y_{0t'} \vert X, D=1]-E[Y_{0t'} \vert X, D=0]=Bias, \end{equation}$

Δ_{t^{'}}^{M} = Δ^{T T} + B i a s

$\Delta^{M}_{t'}=\Delta^{TT}+Bias$

Δ_{t}^{M} = B i a s

$\Delta^{M}_{t}=Bias$

Δ_{t^{'}}^{M} - Δ_{t}^{M} = Δ^{T T}

$\Delta^{M}_{t'}-\Delta^{M}_{t}=\Delta^{TT}$

Хекман, Ишимура, Смит и Тодд, 1998, Econometrica, Eichler и Lechner, 2002, Экономические трудовые труды, являются примерами такого подхода. С другой стороны, 150 обработанных наблюдений может быть недостаточно для того, чтобы этот подход работал.

— Димитрий Васильевич Мастеров
источник

1

Должна быть обеспечена возможность соответствовать людей в парах для панельных данных , так как эти два документа ( paper1 , paper2 ) сделать это , как хорошо. К сожалению, авторы точно не указывают, как они это сделали. Идея, которую вы описываете с помощью Heckman et al (1998), как раз и является причиной использования Diff-in-Diff после парного сопоставления.

— Энди

Мне не ясно, что они делают сопоставление панели, но вы правы, что процедуры расплывчаты. Авторы написали pscore, что свидетельствует об определенной готовности помочь другим. Возможно, электронное письмо им прояснит ситуацию. Сообщите, что они говорят. Это важный вопрос.

— Дмитрий Владимирович Мастеров

0

шаги:

Как это было подробно упомянуто Грегом, вы можете использовать набор данных поперечного сечения, либо на средствах предварительной обработки, либо на определенном периоде предварительной обработки, чтобы получить соответствие.
Используя всю панель, вы назначаете переменные индикатора для
a. обработанный индивид
b. срок обработки, последний равен нулю, как только обработка происходит для обработанного индивида.

Так как момент времени, когда лечебный период изменяется от 0 до 1, варьируется у разных людей и никогда не превращается в 1 для необработанного, вы должны назначить одну и ту же начальную точку от обработанного совпадения для необработанного совпадения. Это интуитивно понятно, но я все же хотел бы видеть хорошую ссылку, которая оправдывает такой подход, которого я до сих пор не нашел.

Установка регрессии будет:

depvar = treatedIndvidual + treatedPeriod  + treatedIndvidual*treatedPeriod + controls

где термин взаимодействия дает вам эффект лечения.

— Матиас
источник

-2

Рассматривали ли вы использовать nnmatch ?

Я использую эту команду, и она довольно всеобъемлющая. Он учитывает различные алгоритмы сопоставления, а также случаи, в которых показатель склонности одинаков для некоторых лиц контрольной группы. Конечно, обработка этого случая зависит от алгоритма сопоставления, если вы берете k-ближайшие соседа или ядро или что-то еще.

— Стат Тистициан
источник

В статье, на которую вы ссылаетесь, я не вижу упоминания о данных панели. Использовали ли вы это для данных панели? Если да, пожалуйста, укажите конкретный код и ответьте на вопрос ОП.

— Метрика

Точное сопоставление проще, но в целом nnmatch более сложный, поскольку он не хранит совпадающие идентификаторы внутри текущего набора данных, но в отдельном. Я получу один набор данных для каждой возрастной группы, который необходимо объединить с исходными данными. Слияние в этом случае не работает, поскольку совпадающие характеристики не позволяют однозначно идентифицировать лиц в исходных данных. Так что, к сожалению, это не дает решения.

— Энди