Этот вопрос интересен тем, что раскрывает некоторые связи между теорией оптимизации, методами оптимизации и статистическими методами, которые должен понять любой способный пользователь статистики. Хотя эти связи просты и легко изучаемы, они тонки и часто упускаются из виду.
Подводя итог некоторым идеям из комментариев к другим ответам, я хотел бы отметить, что есть как минимум два способа, которыми «линейная регрессия» может привести к неуникальным решениям - не только теоретически, но и на практике.
Недостаток идентификации
Первый - это когда модель не идентифицируется. Это создает выпуклую, но не строго выпуклую целевую функцию, которая имеет несколько решений.
Рассмотрим, например, регрессирует против х и у (с перехватом) для ( х , у , г ) данные ( 1 , - 1 , 0 ) , ( 2 , - 2 , - 1 ) , ( 3 , - 3 , - 2 ) . Одним из решений является г = 1 + у . Другой гZИксY( х , у, z)( 1 , - 1 , 0 ) , ( 2 , - 2 , - 1 ) , ( 3 , - 3 , - 2 )Z^= 1 + у . Чтобы увидеть, что должно быть несколько решений, параметризовать модель с тремя действительными параметрами ( λ , µ , ν ) и ошибочным членом ε в видеZ^= 1 - х( λ , μ , ν)ε
Z=1+μ+(λ+ν−1)x+(λ−ν)y+ ε .
Сумма квадратов остатков упрощается до
SSR = 3 мкр2+ 24 ц N ,+ 56 ν2,
(Это ограничивающий случай целевых функций, возникающих на практике, например, обсуждаемый в разделе «Может ли эмпирический гессиан М-оценки быть неопределенным?» , Где вы можете прочитать подробный анализ и просмотреть графики функции.)
Поскольку коэффициенты квадратов ( и 56 ) являются положительными и определитель 3 × 56 - ( 24 / 2 ) 2 = 24 является положительным, то это положительно полуопределена квадратичной формой ( ц , v , , Л ) . Оно минимизируется, когда μ = ν = 0 , но λ может иметь любое значение. Поскольку целевая функция ССР не зависит от λ3563 × 56 - ( 24 / 2 )2= 24( μ , ν, λ )μ = ν= 0λSSRλни его градиент (ни какие-либо другие производные). Следовательно, любой алгоритм градиентного спуска - если он не вносит каких-либо произвольных изменений направления - установит для решения значение равным любому начальному значению.λ
Даже когда градиентный спуск не используется, решение может варьироваться. В R
, например, есть два простых, эквивалентные способы указать эту модель: как z ~ x + y
или z ~ y + x
. Первый дает г = 1 - х , но второе дает г = 1 + у . Z^= 1 - хZ^= 1 + у
> x <- 1:3
> y <- -x
> z <- y+1
> lm(z ~ x + y)
Coefficients:
(Intercept) x y
1 -1 NA
> lm(z ~ y + x)
Coefficients:
(Intercept) y x
1 1 NA
( NA
Значения следует интерпретировать как нули, но с предупреждением о том, что существует несколько решений. Предупреждение стало возможным благодаря предварительному анализу, выполняемому R
независимо от метода его решения. Метод градиентного спуска, скорее всего, не обнаружит возможность нескольких решений, хотя хороший предупредит вас о некоторой неуверенности, что она достигла оптимального значения.)
Ограничения параметров
Строгая выпуклость гарантирует уникальный глобальный оптимум при условии выпуклости области параметров. Ограничения параметров могут создавать невыпуклые домены, что приводит к множеству глобальных решений.
Очень простой пример дает задача оценки «среднего» для данных - 1 , 1 с учетом ограничения | μ | ≥ 1 / 2 . Это моделирует ситуацию, которая является своего рода противоположностью методов регуляризации, таких как Регрессия Риджа, Лассо или Эластичная Сеть: она настаивает на том, чтобы параметр модели не становился слишком маленьким. (На этом сайте появились различные вопросы о том, как решить проблемы регрессии с такими ограничениями параметров, показывая, что они возникают на практике.)μ- 1 , 1| μ | ≥1 / 2
В этом примере есть два решения наименьших квадратов, оба одинаково хороши. Их находят путем минимизации учетом ограничения | μ | ≥ 1 / 2 . Два раствора μ = ± 1 / 2 . Более чем одно решение может возникнуть из - за ограничение делает параметр домена М ∈ ( - ∞ , - 1 / 2 ] ∪( 1 - μ )2+ ( - 1 - μ )2| μ | ≥1 / 2μ = ± 1 / 2 невыпуклый:ц ∈ ( - ∞ , - 1 / 2 ] ∪ [ 1 / 2 , ∞ )
Парабола является графиком (строго) выпуклой функции. Толстая красная часть является частью ограничивается областью : она имеет две низкие точки , в ц = ± 1 / 2 , где сумма квадратов составляет 5 / 2 . Остальная часть параболы (показана пунктирной) удаляется ограничением, тем самым исключая ее уникальный минимум из рассмотрения.μμ = ± 1 / 25 / 2
μ = 1 / 2μ = - 1 / 2
Та же самая ситуация может произойти с большими наборами данных и в более высоких измерениях (то есть с большим количеством параметров регрессии, чтобы соответствовать).