Немного больше информации; Предположим, что
- вы знаете заранее, сколько переменных выбрать и что вы установили штраф за сложность в процедуре LARS, чтобы иметь ровно столько переменных с ненулевыми коэффициентами,
- вычислительные затраты не являются проблемой (общее количество переменных мало, скажем, 50),
- что все переменные (у, х) непрерывны.
В какой настройке модель LARS (т. Е. Подгонка OLS тех переменных, которые имеют ненулевые коэффициенты в подгонке LARS) будет наиболее отличаться от модели с тем же числом коэффициентов, но найденной с помощью исчерпывающего поиска (a la regsubsets ())?
Редактировать: я использую 50 переменных и 250 наблюдений с реальными коэффициентами, взятыми из стандартного гауссиана, за исключением 10 переменных, имеющих «реальные» коэффициенты 0 (и все особенности сильно коррелируют друг с другом). Эти настройки явно не хороши, так как различия между двумя наборами выбранных переменных незначительны. Это действительно вопрос о том, какой тип конфигурации данных следует моделировать, чтобы получить наибольшее количество различий.