Я действительно заинтересован в процедуре эластичной сетки для усадки / выбора предиктора. Это кажется очень мощным.
Но с научной точки зрения я не знаю, что делать, когда получу коэффициенты. На какой вопрос я отвечаю? Это те переменные, которые больше всего влияют на этот результат, и это те коэффициенты, которые дают наилучшее соотношение дисперсии / смещения во время проверки?
Это, конечно, очень описательный / прогностический подход по сравнению с классическим подходом p-значение / доверительные интервалы. Инференциальная оценка в настоящее время изучается Tibshirani & Co., но все еще является экспериментальной.
Некоторые люди используют переменные, выбранные эластичной сеткой, для выполнения классического логического анализа, но это устранило бы ограничение на дисперсию, вносимое этой техникой.
Другая проблема заключается в том, что, поскольку лямбда- и альфа-параметры для эластичной сети выбираются путем перекрестной проверки, они подвержены случайной изменчивости. Таким образом, каждый раз, когда вы запускаете (например,) cv.glmnet (), вы будете выбирать немного другое подмножество предикторов с всегда разными коэффициентами.
Я решил решить эту проблему, рассматривая правильную лямбду и альфа как случайные переменные, и повторно выполнить шаг перекрестной проверки n раз, чтобы получить распределение этих параметров. Таким образом, для каждого предиктора у меня будет количество вхождений, а для каждого коэффициента - распределение результатов. Это должно дать мне более обобщенные результаты со статистикой диапазонов (например, sd коэффициентов). Также было бы интересно посмотреть, будут ли лямбда и альфа, выбранные таким образом, асимптотически приближаться к некоторому распределению, поскольку это откроет путь для некоторого теста вывода (но я не статистик, поэтому я не должен говорить о вещах, которые я делаю не совсем понимаю).
Итак, наконец, мой вопрос: как только вы получите предикторы и коэффициенты из эластичной сети с перекрестной проверкой на основе альфа и лямбда, что и как вы должны представить эти результаты? Как вы должны их обсудить? что мы узнали? Какую гипотезу / обобщение мы опровергаем?