Как имеет смысл делать OLS после выбора переменной LASSO?

20

Недавно я обнаружил, что в литературе по прикладной эконометрике, когда речь идет о проблемах выбора признаков, нередко выполняется LASSO с последующей регрессией OLS с использованием выбранных переменных.

Мне было интересно, как мы можем квалифицировать обоснованность такой процедуры. Это вызовет проблемы, такие как пропущенные переменные? Какие-либо доказательства того, что это более эффективно, или результаты более интерпретируемы?

Вот некоторые связанные обсуждения:

Выбор переменной с помощью LASSO

Использование деревьев после выбора переменных с помощью Lasso / Random

Если, как указано, такая процедура в целом не верна, то почему до сих пор так много исследователей делают это? Могу ли я сказать, что это всего лишь практическое правило, компромиссное решение из-за некоторых непростых свойств оценки LASSO и привязанности людей к OLS?

— ZLIU
источник

Не могли бы вы объяснить, что значит делать «регрессию OLS» после выполнения LASSO? Что именно этот шаг OLS пытается оценить, что LASSO не оценил?

— whuber

2

Есть несколько недавних рабочих документов по этому вопросу. Многие, кажется, требуют допущения, что набор допустимых переменных редок. Если это предположение не выполняется, то да, пропущенные переменные смещения будут присутствовать. А людям нравится ols, потому что они хотят интерпретировать коэф как непредвзятые из-за предельных эффектов. Эконометрика довольно застряла в этой парадигме.

— generic_user

4

В этой недавней книге LASSO (бесплатно онлайн) раздел 11.4 посвящен решению этой проблемы. Я не читал это подробно, но введение заканчивается словами: «Учитывая [оценку LASSO] которая правильно восстанавливает поддержку , мы можем очень хорошо оценить ... просто выполняя обычную регрессию наименьших квадратов, ограниченную этим подмножеством ".

\hat{β}

$\hat{\beta}$

β^{*}

$\beta^*$

β^{*}

$\beta^*$

— GeoMatt22

12

Несколько дней назад был похожий вопрос, который имел соответствующую ссылку:

Беллони А., Черножуков В. и Хансен С. (2014) «Вывод о влиянии лечения после выбора среди многомерных контролей», Обзор экономических исследований, 81 (2), с. 608-50 ( ссылка )

По крайней мере, для меня статья довольно трудная для прочтения, потому что доказательства этого относительно простого довольно сложны. Если вы заинтересованы в оценке модели, как

y_{i} = α T_{i} + X_{i}^{'} β + ϵ_{i}

$y_i = \alpha T_i + X_i'\beta + \epsilon_i$

где - ваш результат, - интересующий эффект лечения, а - вектор потенциальных контролей. Целевым параметром является . Предполагая, что большая часть различий в вашем результате объясняется лечением и редким набором контролей, Belloni et al. (2014) разработали метод двойного робастного отбора, который обеспечивает правильные точечные оценки и допустимые доверительные интервалы. Это предположение о редкости важно, хотя. $y_i$ $T_i$ $X_i$ $\alpha$

Если включает несколько важных предикторов но вы не знаете, какие они (отдельные переменные, их многочлены более высокого порядка или взаимодействия с другими переменными), вы можете выполнить трехэтапную процедуру выбора: $X_i$ $y_i$

регрессировать в , их квадратах и взаимодействиях и выбирать важных предикторов с помощью LASSO $y_i$ $X_i$
регрессировать в , их квадратах и взаимодействиях и выбирать важных предикторов, используя LASSO $T_i$ $X_i$
регрессировать в и все переменные, которые были выбраны в любом из первых двух шагов $y_i$ $T_i$

Они предоставляют доказательства того, почему это работает и почему вы получаете правильные доверительные интервалы и т. Д. Из этого метода. Они также показывают, что если вы выполняете только выбор LASSO для вышеуказанной регрессии, а затем регрессируете результат лечения и выбранные переменные, вы получаете неверные точечные оценки и ложные доверительные интервалы, как уже сказал Бьёрн.

Цель для этого двоякая: сравнение вашей исходной модели, в которой выбор переменных основывался на интуиции или теории, с моделью двойного робота выбора дает представление о том, насколько хорошей была ваша первая модель. Возможно, ваша первая модель забыла некоторые важные квадраты или термины взаимодействия и поэтому страдает от неправильно заданной функциональной формы или пропущенных переменных. Во-вторых, Belloni et al. (2014) метод может улучшить вывод на ваш целевой параметр, потому что избыточные регрессоры были отброшены в своей процедуре.

— Энди
источник

«Правильные» точечные оценки?

— Ричард Харди

3

Выполнение выбора переменной, а затем повторный анализ, как если бы выбор переменной не происходил и выбранная модель была предназначена с самого начала, обычно приводит к преувеличенным величинам эффекта, недопустимым значениям p и доверительным интервалам с ниже номинального охвата. Возможно, если размер выборки очень большой и есть несколько огромных эффектов и множество нулевых эффектов, LASSO + OLS может не сильно пострадать от этого, но кроме этого я не вижу никакого разумного оправдания, и в этом случае LASSO оценки тоже должны быть хорошими.

— Бьерн
источник

1

Но почему вторая модель начинается с нуля, как будто выбор переменной не произошел? Разве LASSO не выбирает объяснительную переменную с лучшей предсказательной силой? Кстати, я подумал снова разбить матричную переменную LASSO на glm. Теперь я понял, что LASSO сама по себе является регрессом.

— SIslam