Ключевое предположение о разнице в различиях (DID) состоит в том, что обе группы имеют общую тенденцию в переменной результата до лечения. Это важно для того, чтобы привести аргумент в пользу того, что изменение для группы, проходящей лечение, связано с лечением, а не с тем, что две группы уже изначально отличались друг от друга.
Если вы будете делать выборку из разных людей до и после лечения, это ослабит аргумент, если ваши выборки из групп лечения и контроля на самом деле не являются случайными и большими. Так что может случиться так, что кто-то спросит вас: «Как вы можете убедиться, что эффект связан с лечением, а не только потому, что вы взяли разные люди?» - и это будет трудно ответить. Этот вопрос вы можете избежать, используя данные панели, потому что вы отслеживаете одни и те же статистические единицы во времени, и, как правило, это более надежный подход.
Чтобы ответить на ваш последний вопрос: да, данные имеют значение, но вы наверняка можете использовать OLS для оценки вашего уравнения выше. Важной вещью, которую в прошлом часто упускали из виду, является правильная оценка стандартных ошибок. Если вы не исправите их, последовательная корреляция будет недооценивать их на значительную величину, и вы найдете значительные эффекты, даже если вы, вероятно, не должны. В качестве справочного материала и предложений по решению этой проблемы см. Bertrand et al. (2004) "Сколько мы должны доверять оценкам различия в различиях?" ,
И наконец, если у вас есть агрегированные данные (например, на уровне штата) или если вы можете легко агрегировать свои данные и если вы хотите использовать более свежий эконометрический метод, чем DID, вы можете взглянуть на Abadie et al. (2010) "Методы синтетического контроля для сравнительных тематических исследований" . Метод синтетического контроля все чаще используется в современных исследованиях, и существуют хорошо документированные процедуры для R и Stata. Может быть, это что-то интересное для вас.