После упрощения проблемы с помощью рутинных процедур ее можно решить, превратив ее в программу двойной минимизации, которая имеет хорошо известный ответ с элементарным доказательством. Возможно, эта дуализация является «тонким шагом», о котором идет речь в вопросе. Неравенство также можно установить чисто механическим путем, максимизируячерез множители Лагранжа.| Tя|
Во-первых, я предлагаю более элегантное решение, основанное на геометрии наименьших квадратов. Это не требует предварительного упрощения и является почти немедленным, обеспечивая непосредственную интуицию в результате. Как предполагается в вопросе, проблема сводится к неравенству Коши-Шварца.
Геометрическое решение
Рассмотрим как мерный вектор в евклидовом пространстве с обычным точечным произведением. Пусть стать базисный вектор и . Запишите и для ортогональных проекций и в ортогональное дополнение к . (В статистической терминологии они являются остатками относительно средних.) Тогда, поскольку ип у = ( 0 , 0 , ... , 0 , 1 , 0 , ... , 0 ) я й 1 = ( 1 , 1 , ... , 1 ) х у х у 1 Х я - ˉ Х =х =( х1, X2, … , XN)Ny =(0,0,…,0,1,0,…,0)яго1 =(1,1,…,1)Икс^Y^ИксY1S=| | х | | /√Икся- Х¯= х^⋅ уS= | | Икс^||/n−1−−−−−√ ,
| Tя| = n - 1-----√| Икс^⋅ у || | Икс^| |= n - 1-----√| Икс^⋅ у^|| | Икс^| |
является компонентом в направлении . По Коши-Шварцу, это максимизируется именно тогда, когда параллелен , для которого QED. х х у =(-1,-1,...,-1,п-1,-1,-1,...,-1)/пТя=plusmn√Y^Икс^Икс^Y^= ( - 1 , - 1 , … , - 1 , n - 1 , - 1 , - 1 , … , - 1 ) / n
Tя= ± n - 1-----√Y^⋅ у^| | Y^| |= ± n - 1-----√| | Y^| | =± n - 1N--√,
Кстати, это решение обеспечивает исчерпывающую характеристику всех случаев, когдамаксимально: они все в форме| Tя|
х =σY^+ μ 1 = σ( - 1 , - 1 , … , - 1 , n - 1 , - 1 , - 1 , … , - 1 ) + μ ( 1 , 1 , … , 1 )
для всех настоящих .μ , σ
Этот анализ легко обобщается на случай, когда заменяется любым набором регрессоров. Очевидно, максимум пропорционален длине невязки ,,T i y | | у | |{ 1 }TяY| | Y^| |
упрощение
Поскольку является инвариантным при изменениях местоположения и масштаба, мы можем предположить без ограничения общности, что сумма равна нулю, а их квадраты - . Это идентифицируетс, поскольку (средний квадрат) равен . Максимизация его равносильна максимизации . Принимая , общность также не теряется , поскольку являются взаимозаменяемыми.X i n - 1 | Т я | | X я | S 1 | Т я | 2 = T 2 i = X 2 i i = 1 X iTяИксяn - 1| Tя|| Икся|S1| Tя|2= Т2я= Х2яя = 1Икся
Решение с помощью двойного состава
Двойственная проблема состоит в том, чтобы зафиксировать значение и спросить, какие значения оставшихся необходимы, чтобы минимизировать сумму квадратов учитывая, что . Поскольку задано , это проблема минимизации учитывая, что . Х J , J ≠ 1 Σ п J = 1 X 2 J Σ п J = 1 Х J = 0 X 1 Σ п J = 2 X 2 J Σ п J = 2 Х J = - Х 1Икс21ИксJ, j ≠ 1ΣNJ = 1Икс2JΣNJ = 1ИксJ= 0Икс1ΣNJ = 2Икс2JΣNJ = 2ИксJ= - X1
Решение легко найти во многих отношениях. Одним из самых элементарных является написать
ИксJ= - X1n - 1+ εJ, j = 2 , 3 , … , n
для которого . Расширение целевой функции и использование этой суммы к нулю, чтобы упростить ее, производитΣNJ = 2εJ= 0
ΣJ = 2NИкс2J= ∑J = 2N( - X1n - 1+ εJ)2знак равно∑ ( - X1n - 1)2- 2 х1n - 1Е & epsi ;J+ ∑ ε2J= Константа + ∑ ε2J,
немедленно показывая уникальное решение для всех . Для этого решенияjεJ= 0J
( n - 1 ) S2= Х21+ ( n - 1 ) ( - X1n - 1)2= ( 1 + 1n - 1) X21= пn - 1Икс21
а также
| Tя| = | Икс1|S= | Икс1|N( n - 1 )2Икс21-------√= n - 1N--√,
КЕД .
Решение с помощью машин
Вернемся к упрощенной программе, с которой мы начали:
Увеличить X21
при условии
Σя = 1NИкся= 0 и ∑я = 1NИкс2я- ( n - 1 ) = 0.
Метод множителей Лагранжа (который является почти чисто механическим и простым) приравнивает нетривиальную линейную комбинацию градиентов этих трех функций к нулю:
( 0 , 0 , … , 0 ) = λ1Д ( Х21) + λ2Д ( ∑я = 1NИкся) + λ3Д ( ∑я = 1NИкс2я- ( n - 1 ) ) .
Компонент за компонентом, эти уравненийN
0000= 2 λ1Икс1+знак равно= ⋯знак равноλ2λ2λ2+ 2 λ3Икс1+ 2 λ3Икс2+ 2 λ3ИксN,
Последние из них подразумевают либо либо . (Мы можем исключить последний случай, потому что тогда первое уравнение подразумевает , тривиализируя линейную комбинацию.) Ограничение суммы до нуля дает . Ограничение суммы квадратов дает два решенияn - 1Икс2= Х3= ⋯ = XN= - λ2/ (2 λ3)λ2= λ3= 0λ1= 0Икс1= - ( n - 1 ) X2
Икс1= ± n - 1N--√; Икс 2= Х3= ⋯ = XN= ∓ 1N--√,
Они оба дают
| Tя| = | Икс1| ≤ | ± n - 1N--√| = n - 1N--√,