Для регрессии Лассо предположим что лучшее решение (например, минимальная ошибка тестирования) выбирает k функций, так что \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ {lasso}, 0, ... 0 \ right) .K β л ы ы о = ( β л с ы о 1 , β л с ы O 2 , . . . , β л
Мы знаем, что является смещенная оценка , так почему же мы по-прежнему принимаем в качестве окончательного решения вместо более «разумного» , где - это оценка LS из частичной модели . ( обозначает столбцы соответствующие выбранным объектам).
Вкратце, почему мы используем Лассо как для выбора объектов, так и для оценки параметров, а не только для выбора переменных (и оставляем оценку выбранных объектов в OLS)?
(Кроме того, что означает, что «Лассо может выбрать не более функций»? - это размер выборки.)