Несколько дней назад был похожий вопрос, который имел соответствующую ссылку:
- Беллони А., Черножуков В. и Хансен С. (2014) «Вывод о влиянии лечения после выбора среди многомерных контролей», Обзор экономических исследований, 81 (2), с. 608-50 ( ссылка )
По крайней мере, для меня статья довольно трудная для прочтения, потому что доказательства этого относительно простого довольно сложны. Если вы заинтересованы в оценке модели, как
yi=αTi+X′iβ+ϵi
где - ваш результат, - интересующий эффект лечения, а - вектор потенциальных контролей. Целевым параметром является . Предполагая, что большая часть различий в вашем результате объясняется лечением и редким набором контролей, Belloni et al. (2014) разработали метод двойного робастного отбора, который обеспечивает правильные точечные оценки и допустимые доверительные интервалы. Это предположение о редкости важно, хотя.T i X i αyiTiXiα
Если включает несколько важных предикторов но вы не знаете, какие они (отдельные переменные, их многочлены более высокого порядка или взаимодействия с другими переменными), вы можете выполнить трехэтапную процедуру выбора:y яXiyi
- регрессировать в , их квадратах и взаимодействиях и выбирать важных предикторов с помощью LASSOX iyiXi
- регрессировать в , их квадратах и взаимодействиях и выбирать важных предикторов, используя LASSOX iTiXi
- регрессировать в и все переменные, которые были выбраны в любом из первых двух шаговT iyiTi
Они предоставляют доказательства того, почему это работает и почему вы получаете правильные доверительные интервалы и т. Д. Из этого метода. Они также показывают, что если вы выполняете только выбор LASSO для вышеуказанной регрессии, а затем регрессируете результат лечения и выбранные переменные, вы получаете неверные точечные оценки и ложные доверительные интервалы, как уже сказал Бьёрн.
Цель для этого двоякая: сравнение вашей исходной модели, в которой выбор переменных основывался на интуиции или теории, с моделью двойного робота выбора дает представление о том, насколько хорошей была ваша первая модель. Возможно, ваша первая модель забыла некоторые важные квадраты или термины взаимодействия и поэтому страдает от неправильно заданной функциональной формы или пропущенных переменных. Во-вторых, Belloni et al. (2014) метод может улучшить вывод на ваш целевой параметр, потому что избыточные регрессоры были отброшены в своей процедуре.