Почему симметричные матрицы с положительным определением (SPD) так важны?


20

Я знаю определение симметричной положительно определенной (SPD) матрицы, но хочу понять больше.

Почему они так важны, интуитивно понятно?

Вот что я знаю. Что еще?

  • Для заданных данных матрица Co-дисперсии является SPD. Ковариационная матрица является важной метрикой, см. Этот превосходный пост для интуитивного объяснения.

  • Квадратичная форма является выпуклой, если SPD. Выпуклость - это хорошее свойство для функции, которая может гарантировать, что локальное решение является глобальным решением. Для выпуклых задач есть много хороших алгоритмов, но не для задач, не связанных с выпуклостью.A12xAxbx+cA

  • Когда A является SPD, решение по оптимизации для квадратичной формы

    minimize   12xAxbx+c
    и решение для линейной системы
    Ax=b
    одинаково. Таким образом, мы можем проводить преобразования между двумя классическими задачами. Это важно, потому что это позволяет нам использовать уловки, обнаруженные в одном домене в другом. Например, мы можем использовать метод сопряженных градиентов для решения линейной системы.
  • Есть много хороших алгоритмов (быстрых, числовых устойчивых), которые лучше работают для матрицы SPD, таких как разложение Холецкого.

РЕДАКТИРОВАТЬ: Я не пытаюсь спросить тождества для матрицы SPD, но интуиция за свойство, чтобы показать важность. Например, как упомянул @Matthew Drury, если матрица SPD, все собственные значения являются положительными действительными числами, но почему все положительные значения. У @Matthew Drury был отличный ответ, и именно это я и искал.


7
Собственные значения являются положительными действительными числами. Этот факт лежит в основе многих других.
Мэтью Друри

4
Чтобы пойти немного дальше, чем @Matthew: если вы выбираете подходящий базис, все такие матрицы одинаковы и равны единичной матрице. Другими словами, в каждом измерении есть ровно одна положительно определенная квадратичная форма (для вещественных векторных пространств), и она равна евклидову расстоянию.
whuber

2
Вы найдете некоторую интуицию во многих элементарных способах показать, что все собственные значения вещественной симметричной матрицы реальны: mathoverflow.net/questions/118626/… В частности, квадратичная форма естественным образом встречается в коэффициенте Рэлея, и симметричные матрицы обеспечивают естественный способ показать большое семейство матриц, чьи собственные значения действительны. См. Теорему Куранта о минимаксе, например: en.wikipedia.org/wiki/Courant_minimax_principlexTAx
Алекс Р.

4
Это кажется слишком широким: если бы еще не было трех ответов, я бы, вероятно, закрыл его на этом основании. Пожалуйста, дайте больше советов о том, что вы конкретно хотите знать (вопрос о интуиции слишком индивидуален / индивидуален, чтобы люди могли догадаться в таком случае)
Glen_b

1
Я испытываю трудности с появлением ситуации в статистике, которая может привести к появлению матрицы, которая не является PSD (если вы не испортили вычисление матрицы корреляции, например, заполнив ее попарной корреляцией, вычисленной для данных с пропущенными значениями) , Любая квадратная симметричная матрица, о которой я могу думать, является либо ковариацией, либо информацией, либо матрицей проекции. (В других местах прикладной математики не-psd-матрицы могут быть культурной нормой, например, скажем, матрицы конечных элементов в PDE.)
StasK

Ответы:


15

(Вещественная) симметричная матрица имеет полный набор ортогональных собственных векторов, для которых соответствующие собственные значения являются действительными числами. Для несимметричных матриц это может не получиться. Например, вращение в двумерном пространстве не имеет собственного вектора или собственных значений в действительных числах, вы должны перейти в векторное пространство над комплексными числами, чтобы найти их.

Если матрица дополнительно положительно определена, то все эти собственные значения являются положительными действительными числами. Этот факт намного проще, чем первый, поскольку, если - собственный вектор с единичной длиной, а λ - соответствующее собственное значение, тоvλ

λ=λvtv=vtAv>0

где последнее равенство использует определение положительной определенности.

Важность здесь для интуиции состоит в том, что собственные векторы и собственные значения линейного преобразования описывают систему координат, в которой преобразование легче всего понять. Линейное преобразование может быть очень трудно понять в «естественном» базисе, таком как стандартная система координат, но каждый из них имеет «предпочтительный» базис из собственных векторов, в которых преобразование действует как масштабирование во всех направлениях. Это значительно упрощает понимание геометрии преобразования.

Например, второй производный тест для локальных экстремумов функции часто дается как ряд загадочных условий, включающих запись во второй производной матрице и некоторые детерминанты. Фактически эти условия просто кодируют следующее геометрическое наблюдение:R2R

  • Если матрица вторых производных положительно определена, вы находитесь на локальном минимуме.
  • Если матрица вторых производных отрицательно определена, вы находитесь на локальном максимуме.
  • В противном случае вы не в седловой точке.

Вы можете понять это с помощью приведенных выше геометрических рассуждений. Первая производная в критической точке исчезает, поэтому скорости изменения функции здесь контролируются второй производной. Теперь мы можем рассуждать геометрически

  • В первом случае есть два собственных направления, и если вы двигаетесь вдоль, либо функция увеличивается.
  • Во втором два собственных направления, и если вы двигаетесь в любую из них, функция уменьшается.
  • В последнем есть два собственных направления, но в одном из них функция увеличивается, а в другом она уменьшается.

Поскольку собственные векторы охватывают все пространство, любое другое направление представляет собой линейную комбинацию собственных направлений, поэтому скорости изменения в этих направлениях являются линейными комбинациями скоростей изменения в собственных направлениях. Таким образом, на самом деле это имеет место во всех направлениях (это более или менее означает, что функция, определенная в пространстве более высокого измерения, будет дифференцируемой). Теперь, если вы рисуете маленькую картинку в своей голове, это имеет смысл из чего-то, что является довольно загадочным в текстах для начинающих.

Это относится непосредственно к одному из ваших пунктов пули

Квадратичная форма является выпуклым, еслиASPD. Выпуклый - это хорошее свойство, которое может гарантировать, что локальное решение является глобальным решением.12xAxbx+cA

Матрица вторых производных везде , которая симметрично положительно определена. Геометрически это означает, что если мы отойдем в любом собственном направлении (и, следовательно, в любом направлении, потому что любое другое является линейной комбинацией собственных направлений), сама функция будет отклоняться выше касательной плоскости. Это означает, что вся поверхность является выпуклой.A


5
Графический взгляд на это: если - SPD, контуры соответствующей квадратичной формы являются эллипсоидальными. A
JM не является статистиком

7
Эта характеристика @JM очень проницательна. Если кому-то интересно, что может быть особенного в эллипсоидальных контурах, обратите внимание, что они являются просто замаскированными сферами: единицы измерения могут различаться вдоль их главных осей, а эллипсоиды могут вращаться относительно координат, в которых описаны данные. Но для очень многих целей, особенно концептуальных, эти различия несущественны.
whuber

Это связано с моим способом геометрического понимания метода Ньютона. Лучше всего приблизиться к текущему уровню, установленному с помощью эллипсоида, а затем взять систему координат, где эллипсоид представляет собой круг, переместиться ортогонально к кругу в этой системе координат.
Мэтью Друри

1
Если есть (активные) ограничения, вам нужно спроецировать в якобиан активных ограничений, прежде чем выполнять шпильку собственных значений и собственных направлений. Если гессианом является psd, (любая) проекция будет psd, но обратное утверждение не обязательно верно, а часто и нет. Смотри мой ответ.
Марк Л. Стоун

10

Вы найдете некоторую интуицию во многих элементарных способах показать, что все собственные значения реальной симметричной матрицы реальны: /mathpro/118626/real-symmetric-matrix-has-real-eigenvalues-elementary- доказательство / 118640 # 118640

В частности, квадратичная форма естественным образом встречается в факторе Рэлея, а симметричные матрицы обеспечивают, пожалуй, наиболее естественный способ демонстрации большого семейства матриц, собственные значения которых действительны. См. Теорему Куранта о минимаксе, например: https://en.wikipedia.org/wiki/Courant_minimax_principlexTAx

Кроме того , строго симметричные положительно определенные матрицы только набор матриц , которые можно определить нетривиальное скалярное произведение, наряду с индуцированной нормой: . Это связано с тем, что по определению для действительных векторов x , y d ( x , y ) = d ( y , x ) для всех x , y и x 2 =d(x,y)=x,Ay=xTAyx,y d(x,y)=d(y,x)x,y для x 0 . Таким образом, симметричные положительно определенные матрицы могут рассматриваться как идеальные кандидаты для преобразования координат.x2=xTAx>0x0

Это последнее свойство является абсолютно ключевым в области машин опорных векторов, в частности методов ядра и трюка ядра , где ядро ​​должно быть симметрично положительным, чтобы индуцировать правильный внутренний продукт. Действительно , теорема Мерсера обобщает интуитивные свойства симметрических матриц на функциональные пространства.


9

Что касается оптимизации (поскольку вы пометили свой вопрос тегом оптимизации), матрицы SPD чрезвычайно важны по одной простой причине - гессенец SPD гарантирует, что направление поиска является направлением спуска. Рассмотрим вывод метода Ньютона для неограниченной оптимизации. Сначала мы формируем разложение Тейлора функции :f(x+Δx)

f(x+Δx)f(x)+ΔxTf(x)+12ΔxT2f(x)Δx

Δx

f(x+Δx)f(x)+2f(x)Δx

Δx

Δx=2f(x)1f(x)

2f(x)Δx

f(x)TΔx=f(x)T2f(x)1f(x)<0

При использовании метода Ньютона матрицы Гессена, не относящиеся к SPD, обычно «подталкиваются» к SPD. Существует аккуратный алгоритм под названием модифицированный Холецкий, который обнаружит не-СПД-гессиана, соответствующим образом «подтолкнет» его в правильном направлении и будет факторизовать результат, все за (по существу) ту же стоимость, что и факторизация Холецкого. Квазиньютоновские методы позволяют избежать этой проблемы, заставляя приближенный гессиан быть SPD.

Кроме того, симметричные неопределенные системы получают большое внимание в эти дни. Они возникают в контексте методов внутренней точки для ограниченной оптимизации.


Большое спасибо за отличный ответ. Я понимаю, приличное направление важно в методе поиска строки. В методах доверительного региона достойное направление также важно?
Haitao Du

1
Это все еще важно для методов доверительного управления. Методы доверительной области в основном работают, ограничивая размер шага ПЕРВЫМ, а затем выбирая направление шага. Если шаг не достигает желаемого уменьшения значения целевой функции, вы уменьшаете ограничение на размер шага и начинаете сначала. Представьте, что ваш алгоритм генерации направления шага не гарантирует, что направление шага является направлением спуска. Даже если радиус области доверия становится равным 0, вы никогда не сможете сгенерировать приемлемый шаг (даже если он существует), поскольку ни одно из ваших шагов не является направлением спуска.
Билл Весснер

Методы поиска строк в основном демонстрируют такое же поведение. Если ваше направление поиска не является направлением спуска, алгоритм поиска линии может никогда не найти приемлемую длину шага - потому что ее нет. :-)
Билл Весснер

Отличный ответ, спасибо, что помогли мне соединить кусочки.
Haitao Du

9

Геометрически положительно определенная матрица определяет метрику , например риманову метрику, поэтому мы можем сразу использовать геометрические понятия.

ИксYA

d(Икс,Y)знак равно(Икс-Y)ТA(Икс-Y)
является метрикой (также называемой функцией расстояния).

Кроме того, положительно определенные матрицы связаны с внутренним продуктом: рNмы можем определить внутренний продукт

Икс,Yзнак равноИксТAY
где Aкак указано выше, является положительно определенным. Более того, все внутренние продукты нарN возникает таким образом.


1
... и, конечно, обычное расстояние Aзнак равноя...
JM не является статистиком

6

Уже есть несколько ответов, объясняющих, почему симметричные положительно определенные матрицы так важны, поэтому я приведу ответ, объясняющий, почему они не так важны, как думают некоторые люди, включая авторов некоторых из этих ответов. Для простоты я ограничу внимание симметричными матрицами и сосредоточусь на гессианах и оптимизации.

Если бы Бог сделал мир выпуклым, не было бы выпуклой оптимизации, была бы просто оптимизация. Точно так же не было бы (симметричных) положительно определенных матриц, просто были бы (симметричные) матрицы. Но дело не в этом, так что разберитесь с этим.

Если задача квадратичного программирования выпуклая, ее можно решить «легко». Если он не выпуклый, глобальный оптимум все еще можно найти, используя методы ветвления и привязки (но это может занять больше времени и больше памяти).

Если для оптимизации используется метод Ньютона, а гессиан на некоторой итерации неопределен, то нет необходимости «искать» его в положительной определенности. При использовании поиска линии можно найти направления отрицательной кривизны и выполнить поиск линии вдоль них, и если используется область доверия, то существует некоторая достаточно небольшая область доверия, такая, что решение проблемы области доверия достигает спуска.

Что касается квазиньютоновских методов, BFGS (демпфированный, если задача ограничена) и DFP поддерживают положительную определенность гессианского или обратного гессенского приближения. Другие квазиньютоновские методы, такие как SR1 (симметричный ранг один), не обязательно поддерживают положительную определенность. Прежде чем вы все изогнетесь из-за этого, это хорошая причина для выбора SR1 для многих задач - если гессиан действительно не является положительно определенным на пути к оптимуму, тогда принудительное приближение квазиньютоновского приближения является положительно определенным может привести к паршивому квадратичному приближению к целевой функции. В отличие от этого, метод обновления SR1 «свободен, как гусь», и может резко изменить свою определенность по мере продвижения вперед.

For nonlinearly constrained optimization problems, what really matters is not the Hessian of the objective function, but the Hessian of the Lagrangian. The Hessian of the Lagrangian may be indefinite even at an (the) optimum, and indeed, it is only the projection of the Hessian of the Lagrangian into the nullspace of the Jacobian of the active (linear and nonlinear) constraints which need be positive semi-definite at the optimum. If you model the Hessian of the Lagrangian via BFGS and thereby constrain it to be positive definite, it might be a terrible fit everywhere, and not work well. By contrast, SR1 can adapt its eigenvalues to what it actually "sees".

There's much more that I could say about all of this, but this is enough to give you a flavor.

Edit: What I wrote 2 paragraphs up is correct. However, I forgot to point out that it also applies to linearly constrained problems. In the case of linearly constrained problems, the Hessian of the Lagrangian is just (reduces down to) the Hessian of the objective function. So the 2nd order optimality condition for a local minimum is that the projection of the Hessian of the objective function into the nullspace of the Jacobian of the active constraints is positive semi-definite. Most notably, the Hessian of the objective function need not (necessarily) be psd at the optimum, and often isn't, even on linearly constrained problems.



@GeoMatt22 You bet your @$$ I'm not. On the other hand, if you are going to create (choose) a loss function, there's no need to make it non-convex when it serves no good purpose other than show-boating. Discretion is the better part of valor.
Mark L. Stone

@Mark L. Stone: This is interesting! Can you give reference to some literature where I can read about such things?
kjetil b halvorsen

@kjetil b halvorsen . Line search with directions of negative curvature folk.uib.no/ssu029/Pdf_file/Curvilinear/More79.pdf . Trust regions are covered in many books and papers. Well-known book with good intro to trust regions is amazon.com/… .. Monster book, somewhat out of date now, is epubs.siam.org/doi/book/10.1137/1.9780898719857 . As for my last paragraph about optimality conditions, read up on 2nd order KKT conditions
Mark L. Stone

@kjetil b halvorsen I didn't address finding global optimum of non-convex Quadratic Program. Widely available software, such as CPLEX, can do this, see ibm.com/support/knowledgecenter/SS9UKU_12.6.1/… . Of course it is not always fast, and may need some memory. I've solved to global optimality some QP minimization problems with tens of thousands of variables which had several hundred signficant magnitude negative eigenvalues.
Mark L. Stone

5

Вы уже привели множество причин, по которым SPD важны, но вы все еще разместили вопрос. Поэтому мне кажется, что сначала нужно ответить на этот вопрос: почему положительные величины имеют значение?

Мой ответ заключается в том, что некоторые величины должны быть положительными, чтобы соответствовать нашему опыту или моделям. Например, расстояния между предметами в пространстве должны быть положительными. Координаты могут быть отрицательными, но расстояния всегда неотрицательны. Следовательно, если у вас есть набор данных и какой-то алгоритм, который его обрабатывает, у вас вполне может получиться, что он сломается, когда вы введете в него отрицательное расстояние. Итак, вы говорите: «Мой алгоритм всегда требует ввода положительного расстояния», и это не будет звучать как необоснованная потребность.

В контексте статистики лучшей аналогией была бы разница. Итак, мы рассчитываем дисперсию как

Σя(Икся-μ)2/N
Из определения очевидно, что если вы кормите реальные цифры Иксяв уравнение результат всегда неотрицателен. Следовательно, вы можете создавать алгоритмы, которые работают с неотрицательными числами, и они могут быть более эффективными, чем алгоритм без этого ограничения. Вот почему мы их используем.

Таким образом, дисперсионно-ковариационные матрицы являются положительными полуопределенными, то есть «неотрицательными» в этой аналогии. Примером алгоритма, который требует этого условия, является разложение Холецкого, это очень удобно. Его часто называют «квадратный корень матрицы». Итак, подобно квадратному корню из действительного числа, которое требует неотрицательности, Холецкий хочет неотрицательные матрицы. Мы не находим это ограничение при работе с ковариационными матрицами, потому что они всегда есть.

Итак, это мой утилитарный ответ. Такие ограничения, как неотрицательность или SPD, позволяют нам создавать более эффективный алгоритм расчета или удобные инструменты моделирования, которые доступны, когда ваши входные данные удовлетворяют этим ограничениям.


3

Here are two more reasons which haven't been mentioned for why positive-semidefinite matrices are important:

  1. The graph Laplacian matrix is diagonally dominant and thus PSD.

  2. Positive semidefiniteness defines a partial order on the set of symmetric matrices (this is the foundation of semidefinite programming).

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.