Вывод после использования Лассо для выбора переменных

Я использую Лассо для выбора объектов в относительно низкой размерности (n >> p). После подбора модели Лассо я хочу использовать ковариаты с ненулевыми коэффициентами, чтобы соответствовать модели без штрафа. Я делаю это, потому что хочу объективных оценок, которые Лассо не может дать мне. Я также хотел бы p-значения и доверительные интервалы для объективной оценки.

У меня проблемы с поиском литературы по этой теме. Большая часть литературы, которую я нахожу, посвящена установлению доверительных интервалов в оценках Лассо, а не уточненной модели.

Из того, что я читал, простая перестройка модели с использованием всего набора данных приводит к нереально малым ошибкам p-values / std. Прямо сейчас разделение образцов (в стиле Вассермана и Редера (2014) или Майнсхаузена и др. (2009)), кажется, хороший курс действий, но я ищу больше предложений.

Кто-нибудь сталкивался с этой проблемой? Если да, не могли бы вы дать несколько предложений.

— Элик
источник

Я не понимаю, почему это должно иметь значение, если оценка Лассо смещена, пока доверительные интервалы имеют (по крайней мере асимптотически) правильное покрытие. Является ли это единственной причиной, по которой вы хотите сопоставить оценки OLS с поддержкой, восстановленной лассо?

— user795305

Может быть, я неправильно понял то, что прочитал, но разве асимптотически правильное покрытие не относится к смещенной оценке, а не к истинной редкой, но несмещенной оценке?

— EliK

Я не уверен, что вы подразумеваете под «истинной разреженной, но беспристрастной» оценкой, но если вы знаете, что у лассо-оценок есть доверительные интервалы с асимптотически корректным покрытием, делать больше не нужно. Статья, только что связанная Гринпаркером (+1), является действительно интересной (и самой последней, которую я знаю по этой теме), в которой обсуждается (частично), как можно разработать асимптотически корректные доверительные интервалы для коэффициентов Лассо, а затем и для коэффициентов. Я пытаюсь указать, что вам не нужно подгонять OLS, чтобы получить объективные коэффициенты, так как объективность не имеет значения.

— user795305

Я думаю, что я неправильно понял. Асимптотически правильное покрытие, на которое вы ссылаетесь, относится к истинному параметру. Таким образом, даже если Лассо дает смещенные коэффициенты, мы можем построить доверительные интервалы, которые имеют правильное покрытие для истинного параметра?

— EliK

Поскольку вы выбрали модель, у вас не будет необоснованных оценок, если вы будете оценивать без Лассо. Коэффициенты членов в модели после выбора переменных-затем-подгонки через OLS будут фактически смещены от 0 (как и в других формах выбора переменных). Небольшая усадка может фактически уменьшить смещение.

— Glen_b

Ответы:

Добавить к предыдущим ответам. Вы обязательно должны проверить последние работы Тибширани и его коллег. Они разработали строгую основу для выведения скорректированных на выбор значений p и доверительных интервалов для методов лассо-типа, а также предоставили R-пакет.

Видеть:

Ли, Джейсон Д. и др. «Точный вывод после выбора, с применением к лассо». Летопись статистики 44,3 (2016): 907-927. ( https://projecteuclid.org/euclid.aos/1460381681 )

Тейлор, Джонатан и Роберт Дж. Тибширани. «Статистическое обучение и выборочный вывод». Труды Национальной академии наук 112.25 (2015): 7629-7634.

R-пакет:

https://cran.r-project.org/web/packages/selectiveInference/index.html

— B.Schubert
источник

Как правило, переоснащение без использования штрафа после выбора переменных с помощью лассо считается «обманом», поскольку вы уже посмотрели данные, а полученные значения p и доверительные интервалы в обычном смысле недопустимы.

$p$

набор переменных, выбранных лассо, является детерминированным и не зависит от данных с высокой вероятностью.

Таким образом, заглядывать в данные дважды - не проблема. Вам необходимо выяснить, выполняются ли для вашей проблемы условия, указанные в документе, или нет.

(В статье также есть много полезных ссылок)

Ссылка:

Чжао С., Шоджае А. и Виттен Д. (2017). В защиту неоправданного: очень наивный подход к многомерному выводу. Получено с: https://arxiv.org/pdf/1705.05543.pdf

— Greenparker
источник

+1 Стоит отметить, однако, что авторы явно не рекомендуют свой подход, за исключением «в очень больших настройках данных»: «Мы не поддерживаем применение ... подхода, описанного выше, в большинстве практических установок анализа данных: мы уверены что на практике ... этот подход будет работать плохо, когда размер выборки будет небольшим или умеренным, и / или предположения не будут выполнены "(на стр. 27). Для справки, эта статья - Чжао, Шоджае и Виттен, « В защиту неоправданного: очень наивный подход к многомерному выводу» (16 мая 2017 года).

— whuber

@whuber И также имейте в виду, что этот документ находится на arxiv.org - не уверен, что он был рецензирован, поэтому могут быть другие проблемы с методологией автора.

— RobertF

Я хотел добавить несколько статей из литературы по ортогональному / двойному машинному обучению, которая становится популярной в литературе по прикладной эконометрике.

Беллони, Александр, Виктор Черножуков и Кристиан Хансен. «Вывод о влиянии лечения после выбора среди крупногабаритных контролей». Обзор экономических исследований 81.2 (2014): 608-650.

В этой статье рассматриваются теоретические свойства оценки воздействия переменной OLS после выбора «других» элементов управления с использованием LASSO.
Виктор Черножуков, Денис Четвериков, Мерт Демирер, Эстер Дюфло, Кристиан Хансен, Уитни Ньюи, Джеймс Робинс, Машинное обучение с двойным / двойным смещением для обработки и структурных параметров, журнал «Эконометрика», том 21, выпуск 1, 1 февраля 2018 года, страницы C1 – C68 , https://doi.org/10.1111/ectj.12097

Это развивает всеобъемлющую теорию использования ряда непараметрических методов (алгоритмов ML) для нелинейного управления многомерным неприятным параметром (confounders), а затем изучает влияние конкретного ковариата на результат. Они имеют дело с частично-линейными каркасами и полностью параметрическими каркасами. Они также рассматривают ситуации, когда переменная интереса смешана.

— FightMilk
источник