Скорость, вычислительные затраты PCA, LASSO, эластичная сеть

Я пытаюсь сравнить сложность вычислений / скорость оценки трех групп методов для линейной регрессии, как это различается в Hastie et al. «Элементы статистического обучения» (2-е изд.), Глава 3:

Выбор подмножества
Методы усадки
Методы с использованием производных направлений ввода (PCR, PLS)

Сравнение может быть очень грубым, просто чтобы дать некоторое представление. Я понимаю, что ответы могут зависеть от масштаба проблемы и от того, как она соответствует архитектуре компьютера, поэтому в качестве конкретного примера можно рассмотреть размер выборки 500 и 50 кандидатов в регрессоры. В основном меня интересует мотивация вычислительной сложности / скорости оценки, а не то, сколько времени потребуется для определенного процессора в данном примере.

— Ричард Харди
источник

При использовании ПЦР или PLS количество компонентов является параметром настройки (аналогично

в регрессии гребня). Таким образом, эти методы также должны пройти перекрестную проверку, чтобы найти оптимальное количество компонентов. У LASSO также есть один параметр регуляризации, но у эластичной сети есть два (эластичная сеть = ребро + LASSO), поэтому перекрестная проверка обходится дороже. Кроме того, LASSO, вероятно, медленнее, чем все другие модели, потому что у него нет решения в закрытой форме.

λ

$\lambda$

— говорит амеба, восстанови Монику

Спасибо! Ваш комментарий мог бы дать хороший ответ, если бы вы включили еще две детали: (1) какова стоимость одной итерации ПЦР и PLS по сравнению с одним прогоном OLS обычной регрессии; (2) более точно определить скорость LASSO, чтобы сделать ее сопоставимой со скоростью регулярной регрессии (является ли она полиномиально, экспоненциально или линейно дороже и почему).

— Ричард Харди

К сожалению, у меня нет готового ответа на это, особенно на (2). Вот почему я только оставил комментарий. +1, кстати, и поздравляю с 5к респом!

— говорит амеба: восстанови монику

@amoeba, спасибо! Я не мог ожидать, что достигну 5 тысяч, когда начал (очень медленно) в прошлом году. Но очень интересно и полезно быть активным участником здесь, в Cross Validated!

— Ричард Харди

@amoeba, я думаю, что справился со сложностью LASSO, если использовать алгоритм LARS; Я обновил свой пост соответственно. Но я не внимательно прочитал статью LARS, поэтому я не совсем уверен, что она правильная ...

— Ричард Харди,

Ответы:

Группа 1 :
Сложность / скорость группы 1. кажется, не слишком сложно выяснить, используются ли алгоритмы грубой силы (хотя могут быть более эффективные альтернативы, такие как алгоритм «скачков и границ»). Например, полный выбор подмножества потребует регрессий, чтобы соответствовать, учитывая пул возможностей кандидата. Подход OLS одной линейной регрессии имеет сложность (согласно этому посту ), где - размер выборки. Следовательно, общая сложность выбора полного подмножества методом грубой силы должна быть $2^K$ $K$ $\mathcal{O}(K^2 n)$ $n$ . $\mathcal{O}(2^K K^2 n)$

Группа 2 :
Сложность / скорость группы 2. обсуждается в разделах 3.8 и 3.9 книги. Например, регрессия гребня с заданным штрафом имеет ту же вычислительную сложность, что и регулярная регрессия. Поскольку необходимо найти с помощью перекрестной проверки, вычислительная нагрузка линейно увеличивается в количестве разделений данных, используемых при перекрестной проверке (скажем, ). Если сетка имеет точек, общая сложность регрессии гребня с настройкой параметра будет . $\lambda$ $\lambda$ $S$ $\lambda$ $L$ $\lambda$ $\mathcal{O}(LSK^2 n)$
В книге довольно много разговоров о LASSO , но я не смог найти то, что мне нужно. Однако я нашел на с. 443 Efron et al. «Регрессия наименьшего угла» (2004), что сложность LASSO для данного такая же, как сложность подгонки OLS линейной регрессии, если используется метод LARS. Тогда общая сложность LASSO с настройкой параметра будет . (Я не читал эту статью внимательно, поэтому, пожалуйста, поправьте меня, если я ошибся.) Эластичная сетка сочетает в себе гребень и LASSO; оба имеют одинаковую вычислительную сложность; следовательно, сложность эластичной сетки должна быть $\lambda$ $\lambda$ $\mathcal{O}(LSK^2 n)$
где - размер сетки параметра настройки который балансирует вес гребня по сравнению с LASSO. $\mathcal{O}(ALSK^2 n)$ $A$ $\alpha$

Группа 3 :
Мне все еще не хватает заметки о сложности / скорости для группы 3. Она состоит из регрессии главных компонентов (PCR) и частичных наименьших квадратов (PLS).

— Ричард Харди
источник

Это только для одной части вопроса 2 в группе 3 выше (а именно, PLS), но, тем не менее, может быть информативным: Srinivasan et al (2010, технический отчет; см. Https://www.umiacs.umd.edu/~balajiv/Papers/ UMD_CS_TR_Pls_Gpu.pdf ) провел некоторые измерения на PLS с использованием алгоритма NIPALS, заявив, что сложность этого алгоритма во времени (и пространстве) равна O (dN) - для извлечения и включив их в различные модели для: а) обнаружения людей на изображениях, и b. ) распознавание лица. Измерения проводились с использованием их собственной реализации на основе графического процессора.

— JF1
источник