Как решить, какую регуляризацию (L1 или L2) использовать?
Какова твоя цель? И то, и другое может улучшить обобщение модели, штрафуя коэффициенты, так как объекты с противоположными отношениями к результату могут «компенсировать» друг друга (большое положительное значение уравновешивается большим отрицательным значением). Это может возникнуть при наличии коллинеарных элементов. Небольшие изменения в данных могут привести к резкому изменению параметров (высокая оценка дисперсии). Наказание может ограничить оба коэффициента, чтобы быть меньше. (Hastie et al. Элементы статистического обучения , 2-е издание, стр. 63)
Каковы плюсы и минусы каждой регуляризации L1 / L2?
Регуляризация L1 может решить проблему мультиколлинеарности, ограничивая норму коэффициента и закрепляя некоторые значения коэффициента до 0. В вычислительном отношении регрессия Лассо (регрессия со штрафом L1) представляет собой квадратичную программу, для решения которой требуются некоторые специальные инструменты. Когда у вас больше возможностей, чем наблюдений , лассо будет сохранять не более ненулевых коэффициентовNN . В зависимости от контекста это может быть не тем, что вы хотите.
Регуляризация L1 иногда используется как метод выбора признаков. Предположим, у вас есть какое-то жесткое ограничение на количество функций, которые вы можете использовать (потому что сбор данных для всех функций дорог, или у вас жесткие инженерные ограничения на количество значений, которые вы можете хранить, и т. Д.). Вы можете попытаться настроить штраф L1, чтобы достичь желаемого количества ненулевых функций.
Регуляризация L2 может решить проблему мультиколлинеарности, ограничивая норму коэффициента и сохраняя все переменные. Маловероятно, что коэффициент будет точно равен 0. Это не обязательно является недостатком, если по какой-то причине не важен вектор разреженных коэффициентов.
В условиях регрессии это «классическое» решение проблемы оценки регрессии с большим количеством функций, чем наблюдений. Регуляризация L2 может оценить коэффициент для каждого признака, даже если имеется больше признаков, чем наблюдений (действительно, это было первоначальной мотивацией для «регрессии гребня»).
В качестве альтернативы эластичная сеть допускает регуляризацию L1 и L2 в качестве особых случаев. Типичный пример использования данных в отрасли для специалистов по обработке данных заключается в том, что вы просто хотите выбрать лучшую модель, но вам не обязательно все равно, будет ли она наказана с использованием L1, L2 или обоих. Эластичная сетка хороша в таких ситуациях.
Рекомендовано ли вначале делать выбор объектов с использованием L1, а затем применять L2 к этим выбранным переменным?
Я не знаком с публикацией, предлагающей конвейер L1-then-L2, но это, вероятно, просто невежество с моей стороны. В этом нет ничего плохого. Я бы провел обзор литературы.
Существует несколько примеров подобных «поэтапных» трубопроводов. Одним из них является «расслабленное лассо», которое применяет регрессию лассо дважды , один раз, чтобы выбрать из большой группы небольшую группу признаков, и второй, чтобы оценить коэффициенты для использования в модели. При этом используется перекрестная проверка на каждом этапе, чтобы выбрать величину штрафа. Причина заключается в том, что на первом этапе вы перекрестно проверяете и, скорее всего, выберете большое наказание, чтобы отсеять нерелевантные предикторы; на втором этапе вы перекрестно проверяете и, скорее всего, выберете меньшее наказание (и, следовательно, большие коэффициенты). Это кратко упоминается в « Элементах статистического обучения» со ссылкой на Николая Майнсхаузена («Расслабленное лассо». Вычислительная статистика и анализ данных). Том 52, Выпуск 1, 15 сентября 2007 года, стр. 374-393).
Пользователь @amoeba также предлагает конвейер L1-then-OLS; это может быть хорошо, потому что он имеет только 1 гиперпараметр для величины штрафа L1, поэтому потребуется меньше тратить.
Одна проблема, которая может возникнуть с любым «поэтапным» конвейером анализа, который выполняет некоторые этапы, а затем некоторые другие этапы по отдельности, заключается в том, что между этими различными алгоритмами нет «видимости», поэтому один процесс наследует любые данные, отслеживаемые на предыдущих этапах. Этот эффект не является незначительным; плохо продуманное моделирование может привести к появлению моделей мусора.
Один из способов застраховаться от побочных эффектов отслеживания данных - перекрестная проверка всех ваших вариантов. Однако повышенные вычислительные затраты могут оказаться непомерно высокими.