Чем обоснован этот расчет производной матричной функции?

В курсе машинного обучения Эндрю Нг он использует следующую формулу:

$\nabla_A tr(ABA^TC) = CAB + C^TAB^T$

и он делает быстрое доказательство, которое показано ниже:

$\nabla_A tr(ABA^TC) \\ = \nabla_A tr(f(A)A^TC) \\ = \nabla_{\circ} tr(f(\circ)A^TC) + \nabla_{\circ}tr(f(A)\circ^T C)\\ =(A^TC)^Tf'(\circ) + (\nabla_{\circ^T}tr(f(A)\circ^T C)^T \\ = C^TAB^T + (\nabla_{\circ^T}tr(\circ^T)Cf(A))^T \\ =C^TAB^T + ((Cf(A))^T)^T \\ = C^TAB^T + CAB$

Доказательство кажется очень плотным без каких-либо комментариев, и мне трудно понять его. Что именно произошло со второго на третье равенство?

machine-learning matrix derivative

— Moneyball
источник

Он должен делать особые предположения о размерах , и , так как в противном случае эта формула вообще не имеет смысла. В левой части должна быть матрица матрица a матрица a для произвольных неотрицательных целых чисел . Но тогда продукты справа не будут определены, если .

A

$A$

B

$B$

C

$C$

A

$A$

i \times j

$i\times j$

B

$B$

j \times j

$j\times j$

C

$C$

i \times m

$i\times m$

i, j, m

$i,j,m$

i = m

$i=m$

— whuber

@ Понятно. Учитывая предположения, я до сих пор не понимаю, как произошел переход со второй на третью строку, где он вводит .

\circ

$\circ$

— MoneyBall

Между второй и третьей строкой он положил . Между второй и третьей строкой он использовал правило продукта. позже он использует цепное правило, чтобы избавиться от .

f (A) = A B

$f(A)=AB$

f ()

$f()$

— Брайан

Существует тонкое, но серьезное злоупотребление нотацией, которое делает многие шаги запутанными. Давайте обратимся к этой проблеме, вернувшись к определениям умножения матриц, транспозиции, трасс и производных. Для тех, кто хочет опустить объяснения, просто перейдите к последнему разделу «Собираем все вместе», чтобы увидеть, насколько короткой и простой может быть строгая демонстрация.

Обозначения и понятия

Габаритные размеры

Чтобы выражение имело смысл, когда является матрицей , должно быть (квадратной) матрицей, а должно быть матрицей, откуда произведение является матрица. Чтобы взять трассу (которая является суммой диагональных элементов, ), затем , что делает квадратной матрицей. $ABA^\prime C$ $A$ $m\times n$ $B$ $n\times n$ $C$ $m\times p$ $m\times p$ $\operatorname{Tr}(X)=\sum_i X_{ii}$ $p=m$ $C$

производные

Обозначения « » появляется для обозначения производной выражения по отношению к . Как правило, дифференциация операция , выполняемая на функции . Производной в точке является линейным преобразованием . При выборе базисов для этих векторных пространств такое преобразование можно представить в виде матрицы Это не тот случай, здесь! $\nabla_A$ $A$ $f:\mathbb{R}^N\to\mathbb{R}^M$ $x\in \mathbb{R}^N$ $Df(x):\mathbb{R}^N\to\mathbb{R}^M$ $M\times N$

Матрицы как векторы

Вместо этого рассматривается как элемент : его коэффициенты развертываются (обычно либо строка за строкой, либо столбец за столбцом) в вектор длиной . Функция имеет действительные значения, откуда . Следовательно, должна быть матрицей : это вектор строки, представляющий линейную форму в . Однако вычисления в вопросе используют другой способ представления линейных форм: их коэффициенты сворачиваются в матриц. $A$ $\mathbb{R}^{mn}$ $N=mn$ $f(A)=\operatorname{Tr}(ABA^\prime C)$ $M=1$ $Df(x)$ $1\times mn$ $\mathbb{R}^{mn}$ $m\times n$

След как линейная форма

Пусть - постоянная матрица. Тогда по определению следа и умножения матриц $\omega$ $m\times n$

\begin{aligned} Tr (A ω^{'}) & = \sum_{i = 1}^{m} (A ω^{'})_{i i} = \sum_{i = 1}^{m} (\sum_{j = 1}^{n} A_{i j} (ω^{'})_{j i}) = \sum_{i, j} ω_{i j} A_{i j} \end{aligned}

$\eqalign{ \operatorname{Tr}(A\omega^\prime) &= \sum_{i=1}^m(A\omega^\prime)_{ii} = \sum_{i=1}^m\left(\sum_{j=1}^n A_{ij}(\omega^\prime)_{ji}\right) = \sum_{i,j} \omega_{ij}A_{ij} }$

Это выражает наиболее общую возможную линейную комбинацию коэффициентов : - это матрица той же формы, что и а ее коэффициент в строке и столбце - это коэффициент в линейной комбинации. Поскольку , роли и могут меняться, давая эквивалентное выражение $A$ $\omega$ $A$ $i$ $j$ $A_{ij}$ $\omega_{ij}A_{ij}=A_{ij}\omega_{ij}$ $\omega$ $A$

\begin{matrix} (1) & \sum_{i, j} ω_{i j} A_{i j} = Tr (A ω^{'}) = Tr (ω A^{'}) . \end{matrix}

$\sum_{i,j} \omega_{ij}A_{ij} = \operatorname{Tr}(A\omega^\prime) = \operatorname{Tr}(\omega A^\prime).\tag{1}$

Отождествляя постоянную матрицу с любой из функций или , мы можем представить линейную образует на пространстве матриц как матриц. (Не путайте их с производными функций от до !) $\omega$ $A\to \operatorname{Tr}(A \omega^\prime)$ $A\to \operatorname{Tr}(\omega A^\prime)$ $m\times n$ $m\times n$ $\mathbb{R}^n$ $\mathbb{R}^m$

Вычисление производной

Определение

Производные многих матричных функций, встречающихся в статистике, наиболее легко и надежно вычисляются из определения: на самом деле вам не нужно прибегать к сложным правилам матричного дифференцирования. Это определение говорит, что дифференцируемо в тогда и только тогда, когда существует линейное преобразование такое, что $f$ $x$ $L$

f (x + h) - f (x) = L h + o (| h |)

$f(x+h) - f(x) = Lh + o(|h|)$

при сколь угодно малых перемещений . Маленькая-ой запись означает , что ошибка , сделанная в приближении разности от сколь угодно меньше , чем размер при достаточно малом . В частности, мы всегда можем игнорировать ошибки, которые пропорциональны . $h\in \mathbb{R}^N$ $f(x+h)-f(x)$ $Lh$ $h$ $h$ $|h|^2$

Расчет

Давайте применим определение к рассматриваемой функции. Умножение, расширение и игнорирование термина с произведением двух в нем, $h$

\begin{matrix} (2) & \begin{aligned} f (A + h) - f (A) & = Tr ((A + h) B (A + h)^{'} C) - Tr (A B A^{'} C) \\ = Tr (h B A^{'} C) + Tr (A B h^{'} C) + o (| h |) . \end{aligned} \end{matrix}

$\eqalign{ f(A+h)-f(A) &= \operatorname{Tr}((A+h)B(A+h)^\prime C) - \operatorname{Tr}(ABA^\prime C) \\ &= \operatorname{Tr}(hBA^\prime C) +\operatorname{Tr}(ABh^\prime C) + o(|h|).\tag{2} }$

Чтобы определить производную , мы должны получить это в виде . Первый член в правой части есть уже в таком виде, с . Другой член справа имеет вид для . Давайте выпишем это: $L=Df(A)$ $(1)$ $\omega = BA^\prime C$ $\operatorname{Tr}(Xh^\prime C)$ $X=AB$

\begin{matrix} (3) & Tr (X h^{'} C) = \sum_{i = 1}^{m} \sum_{j = 1}^{n} \sum_{k = 1}^{m} X_{i j} h_{k j} C_{k i} = \sum_{i, j, k} h_{k j} (C_{k i} X_{i j}) = Tr ((C X) h^{'}) . \end{matrix}

$\operatorname{Tr}(Xh^\prime C) = \sum_{i=1}^m\sum_{j=1}^n\sum_{k=1}^m X_{ij} h_{kj} C_{ki} = \sum_{i,j,k}h_{kj} \left(C_{ki}X_{ij}\right) =\operatorname{Tr}((CX)h^\prime).\tag{3}$

Ссылаясь на , можно переписать $X=AB$ $(2)$

f (A + h) - f (A) = Tr (h B A^{'} C) + Tr (C A B h^{'}) + o (| h |) .

$f(A+h) - f(A) = \operatorname{Tr}(h\, BA^\prime C\,) + \operatorname{Tr}(CAB\, h^\prime\,)+o(|h|).$

Именно в этом смысле мы можем рассматривать производную в как потому что эти матрицы играют роли в формулах следа . $f$ $A$

D f (A) = (B A^{'} C)^{'} + C A B = C^{'} A B^{'} + C A B,

$Df(A) = (BA^\prime C)^\prime + CAB = C^\prime A B^\prime + CAB,$

ω

$\omega$

(1)

$(1)$

Собираем все вместе

Вот полное решение.

Пусть быть матрицы, в матрицы, а матрицу. Пусть . Пусть - матрица с сколь угодно малыми коэффициентами. Потому что (по тождеству ) есть дифференцируемо и его производная является линейной формой, определяемой матрицей $A$ $m\times n$ $B$ $n\times n$ $C$ $m\times m$ $f(A) = \operatorname{Tr}(ABA^\prime C)$ $h$ $m\times n$ $(3)$
$\begin{aligned} f (A + h) - f (A) & = Tr (h B A^{'} C) + Tr (A B h^{'} C) + o (| h |) \\ = Tr (h (C^{'} A B^{'})^{'} + (C A B) h^{'}) + o (| h |), \end{aligned}$ $\eqalign{f(A+h) - f(A) &= \operatorname{Tr}(hBA^\prime C) +\operatorname{Tr}(ABh^\prime C) + o(|h|) \\ &=\operatorname{Tr}(h(C^\prime A B^\prime)^\prime + (CAB)h^\prime) + o(|h|),}$ $f$ $C^{'} A B^{'} + C A B .$ $C^\prime A B^\prime + CAB.$

Поскольку это занимает только около половины работы и включает в себя только самые основные манипуляции с матрицами и трассами (умножение и транспонирование), его следует рассматривать как более простую и, возможно, более заметную, демонстрацию результата. Если вы действительно хотите понять отдельные шаги в исходной демонстрации, вам может быть полезно сравнить их с расчетами, показанными здесь.

— Whuber
источник

Полезно знать, что в общем случае если матрицы имеют совместимые размеры. Знание этого делает (3) тривиальным шагом.

tr (A B C) = tr (C A B)

$\mbox{tr}(ABC)=\mbox{tr}(CAB)$

— Брайан

@ Амеба Я не могу сказать, пытаешься ли ты быть смешным или нет. Ни вопрос, ни ответ не имеют прямого отношения к частным производным. Форма явно является линейной формой, определенной в векторном пространстве из вещественных матриц. Когда кто-то утверждает, что производная функции в точке равна некоторой матрице , они имеют в виду, что является линейной форма, заданная .

(1)

$(1)$

Mat (m, n)

$\operatorname{Mat}(m,n)$

m \times n

$m\times n$

f : Mat (m, n) \to R

$f:\operatorname{Mat}(m,n)\to\mathbb{R}$

A

$A$

ω

$\omega$

D f (A)

$Df(A)$

X :\to Tr (X ω^{'})

$X:\to\operatorname{Tr}(X\omega^{\,\prime})$

— whuber

@Amoeba Совершенно верно - это вполне обосновывает утверждения в первой строке этого ответа. Вот почему я написал «в этом смысле» и позже в резюме использовал фразу «определяется», а не «равно». Я не буду отрицать, что объяснение было сложным; Я подумаю, как это уточнить, и я ценю все ваши комментарии и предложения.

— whuber

@ user10324 Большая часть того, что я публикую на этом сайте, является моей собственной формулировкой - я редко обращаюсь к источникам (и документирую их, когда делаю). Эти посты являются вымыслом из чтения многих книг и газет. Некоторые из лучших книг не были те, которые полностью математически строгие, но которые прекрасно объяснили и иллюстрировали основополагающие идеи. Первые несколько, которые приходят на ум - в порядке изощренности - это Freedman, Pisani & Purves, Statistics (любое издание); Джек Кифер, Введение в статистический вывод ; и Стивен Шрив, Стохастическое исчисление для финансов II .

— whuber

@whuber Наконец-то я понял, что такое линейная форма трассы. Я извиняюсь за то, что снова задавал тот же вопрос на отдельных постах, когда мог бы прочитать ваше объяснение более внимательно. У меня есть еще один вопрос. Если ваше уравнение может быть применено для нахождения производных любой матричной функции, имеет ли такую же размерность, что и ? Так что, если , то ?

f (x + h) - f (x) = L h + o (| h |)

$f(x+h)−f(x)=Lh+o(|h|)$

h

$h$

x

$x$

x \in R^{m \times n}

$x \in \mathbb{R}^{m \times n}$

h \in R^{m \times n}

$h \in \mathbb{R}^{m \times n}$

— MoneyBall