Решение для параметров регрессии в закрытом виде против градиентного спуска


72

В курсе машинного обучения Эндрю Нг он знакомит с линейной регрессией и логистической регрессией и показывает, как подобрать параметры модели с использованием градиентного спуска и метода Ньютона.

Я знаю, что градиентный спуск может быть полезен в некоторых приложениях машинного обучения (например, обратное распространение), но в более общем случае есть какая-либо причина, по которой вы не решите параметры в закрытой форме, т. Е. Взяв производную от функция стоимости и решение с помощью исчисления?

В чем преимущество использования итеративного алгоритма, такого как градиентный спуск, по сравнению с решением в замкнутой форме в целом, когда оно доступно?


9
Я не думаю, что есть закрытое решение для MLE параметров регрессии в большинстве случаев (например, логистическая регрессия). Линейная регрессия с нормальными ошибками является одним исключением.
Макрос

5
Интересно ... Означает ли это, что разные пакеты статистики могут давать разные ответы для логистической регрессии в зависимости, например, от начальных настроек параметров, количества итераций, нескольких локальных минимумов и т. следовать? (Хотя я уверен, что любые различия, если они существуют, в большинстве случаев незначительны)
Джефф

3
(+1) К твоему вопросу и твоему комментарию, Джефф. GLM, использующие каноническую связь (например, логистическую регрессию), извлекают выгоду из приятных свойств выпуклости. Для решения таких проблем может быть более одного алгоритма, но основной итог этого заключается в том, что (по модулю некоторых довольно незначительных деталей), хорошо реализованные численные алгоритмы будут давать согласованные результаты между ними.
кардинал

2
Мне лично не нравится курс Эндрю Нга, потому что он заставил людей поверить, что линейная регрессия - это «машинное обучение».
Digio

Ответы:


86

Если решение для закрытой формы чрезвычайно дорого для вычисления, оно обычно является подходящим вариантом, когда оно доступно. Тем не мение,

  1. Для большинства задач нелинейной регрессии не существует решения в замкнутой форме.

  2. Даже в случае линейной регрессии (один из немногих случаев, когда доступно решение в закрытой форме), использование формулы может быть нецелесообразным. В следующем примере показан один из способов, которым это может произойти.

Для линейной регрессии на модели вида , где - матрица с полным рангом столбца, решение наименьших квадратов,y=XβX

β^=argminXβy2

дан кем-то

β^=(XTX)1XTy

Теперь представьте, что - очень большая, но разреженная матрица. Например, может иметь 100 000 столбцов и 1 000 000 строк, но только 0,001% записей в отличны от нуля. Существуют специализированные структуры данных для хранения только ненулевых записей таких разреженных матриц. XXX

Также представьте, что нам не повезло, и - довольно плотная матрица с гораздо более высоким процентом ненулевых записей. Хранение плотной матрицы размером 100 000 на 100 000 элементов тогда потребует чисел с плавающей запятой (при 8 байтах на число, это составляет 80 гигабайт.) Это было бы нецелесообразно хранить на чем-либо но суперкомпьютер. Кроме того, обратная сторона этой матрицы (или чаще фактор Холецкого) также имеет тенденцию иметь в основном ненулевые записи. XTXXTX1×1010

Однако, есть итерационные методы для решения задачи наименьших квадратов , которые не требуют больше памяти , чем , , и и никогда явно не образуют произведение матриц . Xyβ^XTX

В этой ситуации использование итеративного метода намного эффективнее в вычислительном отношении, чем использование решения в форме наименьших квадратов в замкнутой форме.

Этот пример может показаться нелепо большим. Тем не менее, большие разреженные задачи наименьших квадратов такого размера обычно решаются итерационными методами на настольных компьютерах в исследованиях сейсмической томографии.


4
Я должен упомянуть, что есть также проблемы с числовой точностью, которые могут сделать использование замкнутого решения проблемы наименьших квадратов нецелесообразным. Тем не менее, это потребовало бы обсуждения плохой обусловленности, которая, вероятно, выходит за рамки нынешнего понимания оригинального плаката.
Брайан Борчерз

17
Пожалуйста, не стесняйтесь написать ответ, потому что вы не думаете, что я его пойму. Во-первых, не повредит предоставить больше информации, даже если мне понадобятся некоторые исследования, чтобы понять это. во-вторых, модель стека обмена предполагает, что этот вопрос и ответ пойдут на пользу другим в будущем. Другими словами, не выкладывайте свой ответ на основании того, насколько, по вашему мнению, знает ОП, иначе вы окажете плохую услугу другим.
Джефф

2
@ Брайан, я чувствую, что твой комментарий подходит ближе к сути вопроса и немного расходится с первым предложением в ответе. Я не думаю, что какое - либо программное обеспечение наименьших квадратов (в здравом уме) использует решение в закрытой форме. :)
кардинал

4
Кардинал - на практике лучше всего использовать QR-факторизацию или SVD для решения небольших задач наименьших квадратов. Я бы сказал, что решение, использующее одну из этих ортогональных факторизаций, также является «решением в замкнутой форме» по сравнению с использованием итерационной техники, такой как LSQR. Я не стал вдаваться в это в своем ответе, потому что он излишне отвлекает внимание от моей основной мысли.
Брайан Борчерс

2
Жестокое кондиционирование? Учебник закрытой формы решения? Я люблю запах квадратов состояния по утрам. Есть большой номер условия? Почему бы не возвести в квадрат и сделать его еще больше? У вас не очень большой номер состояния? Почему бы не возвести это в квадрат и не сделать его большим.
Марк Л. Стоун

2

Было несколько постов по машинному обучению (ML) и регрессу. ML не требуется для решения обычных наименьших квадратов (OLS), поскольку он включает одношаговую матричную операцию сэндвича для решения системы линейных уравнений - т.е. . Тот факт, что все является линейным, означает, что для определения коэффициентов требуется только одношаговая операция. Логистическая регрессия основана на максимизации функции правдоподобия , которая может быть решена с помощью Ньютона-Рафсона или других методов градиентного подъема ML, метаэвристики (восхождение на гору, генетические алгоритмы, интеллект роя, оптимизация колонии муравьев и т. Д.) , β=(XTX)1XTyL=ipi

Что касается экономии средств, использование ML для OLS было бы расточительным, потому что итеративное обучение неэффективно для решения OLS.

Теперь вернемся к вашему реальному вопросу о подходах к производным и ML к решению градиентных задач. В частности, для логистической регрессии обычно используется подход градиентного спуска Ньютона-Рафсона (на основе производных). Ньютон-Рафсон требует, чтобы вы знали целевую функцию и ее частные производные по каждому параметру (непрерывный в пределе и дифференцируемый). ML в основном используется, когда целевая функция слишком сложна («изначально») и вы не знаете производных. Например, искусственная нейронная сеть (ANN) может использоваться для решения проблемы аппроксимации функции или контролируемой задачи классификации, когда функция неизвестна. В этом случае ИНС является функцией.

Не делайте ошибку, используя методы ML для решения проблемы логистической регрессии, просто потому, что вы можете. Для логистики Ньютон-Рафсон чрезвычайно быстр и является подходящим методом для решения проблемы. ML обычно используется, когда вы не знаете, что это за функция. (кстати, ИНС из области вычислительного интеллекта, а не ОД).

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.