Настройка данных для различий в различиях

Какая настройка верна для модели разности регрессии с использованием

$Y_{ist} = \alpha +\gamma_s*T + \lambda d_t + \delta*(T*d_t)+ \epsilon_{ist}$

где T - манекен, равный 1, если наблюдение относится к группе лечения, а d - манекен, равный 1 в период времени после начала лечения

1) Случайные выборки из каждой группы и времени (т.е. 4 случайных выборки)

или

2) Данные панели, где одни и те же единицы отслеживаются в течение обоих периодов времени?

Имеет ли это значение, и если нет, можно ли использовать OLS в любом случае?

regression econometrics difference-in-difference

— B_Miner
источник

Я не видел (1) сделано - анализ всегда кажется = (2). Не уверен, почему вы это сделаете (1). Но я не видел много исследований DID.

— Чарльз

Примеры 1 показаны в разделе 13.2 «Вводная эконометрика Вулдриджа»

— B_Miner,

Ключевое предположение о разнице в различиях (DID) состоит в том, что обе группы имеют общую тенденцию в переменной результата до лечения. Это важно для того, чтобы привести аргумент в пользу того, что изменение для группы, проходящей лечение, связано с лечением, а не с тем, что две группы уже изначально отличались друг от друга.

Если вы будете делать выборку из разных людей до и после лечения, это ослабит аргумент, если ваши выборки из групп лечения и контроля на самом деле не являются случайными и большими. Так что может случиться так, что кто-то спросит вас: «Как вы можете убедиться, что эффект связан с лечением, а не только потому, что вы взяли разные люди?» - и это будет трудно ответить. Этот вопрос вы можете избежать, используя данные панели, потому что вы отслеживаете одни и те же статистические единицы во времени, и, как правило, это более надежный подход.

Чтобы ответить на ваш последний вопрос: да, данные имеют значение, но вы наверняка можете использовать OLS для оценки вашего уравнения выше. Важной вещью, которую в прошлом часто упускали из виду, является правильная оценка стандартных ошибок. Если вы не исправите их, последовательная корреляция будет недооценивать их на значительную величину, и вы найдете значительные эффекты, даже если вы, вероятно, не должны. В качестве справочного материала и предложений по решению этой проблемы см. Bertrand et al. (2004) "Сколько мы должны доверять оценкам различия в различиях?" ,

И наконец, если у вас есть агрегированные данные (например, на уровне штата) или если вы можете легко агрегировать свои данные и если вы хотите использовать более свежий эконометрический метод, чем DID, вы можете взглянуть на Abadie et al. (2010) "Методы синтетического контроля для сравнительных тематических исследований" . Метод синтетического контроля все чаще используется в современных исследованиях, и существуют хорошо документированные процедуры для R и Stata. Может быть, это что-то интересное для вас.

— Энди
источник

Это здорово, Энди! Могу ли я подвести итог, сказав, что обе настройки данных являются приемлемыми, но что данные панели легче спорить о предположениях? То, что оба могут соответствовать OLS, но стандартные ошибки (особенно, я полагаю, настройки данных панели) сомнительны из-за возможной последовательной корреляции. Будет ли установка панели с Newey West SE хорошим решением?

— B_Miner

Да, для первого типа данных вам нужно больше и сильные предположения. Для стандартных ошибок исправление Newey West должно работать. На самом деле это аналог одного из методов коррекции, предложенных Bertrand et al. (они используют кластерные стандартные ошибки). Более поздний метод использует загрузчик, который работает довольно хорошо (см. Rbnz.govt.nz/research_and_publications/seminars_and_workshops/… ). Надеюсь это поможет!

— Энди