Приятной особенностью различия в различиях (DiD) является то, что вам не нужны данные панели. Учитывая, что лечение происходит на некотором уровне агрегации (в вашем случае города), вам нужно только отобрать случайных людей из городов до и после лечения. Это позволяет оценить
и получить причинно-следственный эффект от обработки как ожидаемую разницу после исхода для лечили за вычетом ожидаемой разницы в исходах после контрольного теста.
YI сек т= Aграмм+ BT+ βDс т+ с хI сек т+ ϵI сек т
Существует случай, когда люди используют индивидуальные фиксированные эффекты вместо показателя лечения, и это когда у нас нет четко определенного уровня агрегации, при котором происходит лечение. В этом случае вы бы оценили
где - показатель периода после лечения для лиц, которые получил лечение (например, программа рынка труда, которая происходит повсюду). Для получения дополнительной информации об этом см. Эти лекционные заметки Стива Пишке. D i t
Yя т= αя+ BT+ βDя т+ с хя т+ ϵя т
Dя т
В ваших настройках добавление отдельных фиксированных эффектов не должно ничего менять по отношению к точечным оценкам. Индикатор лечения будет просто поглощен отдельными фиксированными эффектами. Однако эти фиксированные эффекты могут поглотить некоторые остаточные отклонения и, следовательно, потенциально уменьшить стандартную ошибку вашего коэффициента DiD.Aграмм
Вот пример кода, который показывает, что это так. Я использую Stata, но вы можете повторить это в статистическом пакете по вашему выбору. «Индивидуумы» здесь на самом деле страны, но они по-прежнему сгруппированы по некоторому показателю лечения.
* load the data set (requires an internet connection)
use "http://dss.princeton.edu/training/Panel101.dta"
* generate the time and treatment group indicators and their interaction
gen time = (year>=1994) & !missing(year)
gen treated = (country>4) & !missing(country)
gen did = time*treated
* do the standard DiD regression
reg y_bin time treated did
------------------------------------------------------------------------------
y_bin | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
time | .375 .1212795 3.09 0.003 .1328576 .6171424
treated | .4166667 .1434998 2.90 0.005 .13016 .7031734
did | -.4027778 .1852575 -2.17 0.033 -.7726563 -.0328992
_cons | .5 .0939427 5.32 0.000 .3124373 .6875627
------------------------------------------------------------------------------
* now repeat the same regression but also including country fixed effects
areg y_bin did time treated, a(country)
------------------------------------------------------------------------------
y_bin | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
time | .375 .120084 3.12 0.003 .1348773 .6151227
treated | 0 (omitted)
did | -.4027778 .1834313 -2.20 0.032 -.7695713 -.0359843
_cons | .6785714 .070314 9.65 0.000 .53797 .8191729
-------------+----------------------------------------------------------------
Таким образом, вы видите, что коэффициент DiD остается неизменным, когда включены отдельные фиксированные эффекты ( areg
это одна из доступных команд оценки фиксированных эффектов в Stata). Стандартные ошибки немного короче, и наш первоначальный показатель лечения был поглощен отдельными фиксированными эффектами и поэтому упал в регрессии.
В ответ на комментарий
я упомянул пример Пишке, показывающий, когда люди используют отдельные фиксированные эффекты, а не показатель группы лечения. Ваша настройка имеет четко определенную структуру группы, поэтому способ написания вашей модели идеально подходит. Стандартные ошибки должны быть сгруппированы на уровне города, т.е. на уровне агрегации, на котором происходит обработка (я не делал этого в коде примера, но в настройках DiD стандартные ошибки должны быть исправлены, как продемонстрировано в работе Bertrand et al. ).
Что касается грузчиков, они не играют здесь особой роли. Показатель лечения равен 1 для людей, которые живут в обработанном городе в период после лечения . Чтобы вычислить коэффициент DiD, нам просто нужно вычислить четыре условных ожидания, а именно:
Dс тsT
c = [ E( уI сек т| s=1,t=1)-E( уI сек т| s=1,t=0)]- [ E( уI сек т| s=0,t=1)-E( уI сек т| s=0,t=0)]
Таким образом, если у вас есть 4 периода после лечения для человека, который живет в обработанном городе в течение первых двух лет, а затем переезжает в контрольный город в течение оставшихся двух периодов, первые два из этих наблюдений будут использоваться при вычислении и последние два в . Чтобы было понятно, почему идентификация происходит из-за различий в группах во времени, а не из движителей, вы можете визуализировать это с помощью простого графика. Предположим, что изменение результата действительно только из-за лечения и что оно оказывает одновременный эффект. Если у нас есть человек, который живет в обработанном городе после начала лечения, но затем переезжает в контрольный город, его результаты должны вернуться к тому, что было до лечения. Это показано на стилизованном графике ниже.Е( уI сек т| s=1,t=1)Е( уI сек т| s=0,t=1)
Вы все еще можете подумать о грузчиках по другим причинам. Например, если лечение оказывает длительный эффект (т.е. оно все еще влияет на результат, даже если человек переехал)