Градиенты для скипграмм word2vec

Я изучаю проблемы письменных заданий в классе глубокого обучения Стэнфордского НЛП http://cs224d.stanford.edu/assignment1/assignment1_soln

Я пытаюсь понять ответ для 3а, где они ищут производную от вектора для центрального слова.

Предположим, вам дан вектор предсказанного слова соответствующий центральному слову c для скипграммы, а предсказание слова выполняется с помощью функции softmax, найденной в моделях word2vec. $v_{c}$

$\hat{y}^{o} = p(o | c) = \frac {exp(u_{o}^{T} v_{c})}{\sum_{w=1}^{W}exp(u_{w}^{T} v_{c})}$

Где w обозначает w-е слово, а (w = 1, ..., W) - «выходные» слова-слова для всех слов в словаре. Предположим, что к этому прогнозу применяется перекрестная энтропийная стоимость, а слово o является ожидаемым словом. $u_w$

Где - матрица всех выходных векторов, и пусть - вектор-столбец предсказания softmax для слов, а y - метка, содержащая одну горячую метку, которая также вектор столбца. $U = [u_1,u_2, · · · ,u_W ]$ $\hat{y}$

Где перекрестная энтропия - это $CE(y, \hat{y}) = − \sum_iy_i\log(\hat{y}_i)$

Таким образом, ответ для градиента для центрального вектора: $\frac{∂J}{∂v_c}= U^T(\hat{y} − y).$

Может ли кто-нибудь показать мне шаги, чтобы добраться до этого? Я использовал этот вопрос в качестве эталона Производной перекрестной потери энтропии в word2vec, но я специально хочу знатьпредставление. $U^T(\hat{y} − y).$

— Джейк Фонд
источник

Во-первых, давайте рассмотрим, что у нас есть, и наши предположения о формах различных векторов. Позволять,

$|W|$ быть количество слов в словаре
$y$ и векторовстолбцов формых 1 $\hat{y}$ $|W|$
$u_i$ и $v_j$ - векторы столбцов формы $D$ X 1 ( $D$ = размерность вложений)
$y$ - закодированный вектор столбца с одной горячей формойх 1 $|W|$
$\hat{y}$ - вектор столбца прогнозирования softmax формых 1 $|W|$
$\hat{y}_i = P(i|c) = \frac{exp(u_i^Tv_c)}{\sum_{w=1}^Wexp(u_w^Tv_c)}$
Перекрестная потеря энтропии: $J = -\sum_{i=1}^Wy_ilog({\hat{y_i}})$
$U = [u_1, u_2, ...,u_k, ...u_W]$ - матрица, состоящая из $u_k$ векторов столбцов.

Теперь мы можем написать

J = - \sum_{i = 1}^{W} y_{i} l o g (\frac{e x p (u_{i}^{T} v_{c})}{\sum_{w = 1}^{W} e x p (u_{w}^{T} v_{c})})

$J = - \sum_{i=1}^W y_i log(\frac{exp(u_i^Tv_c)}{\sum_{w=1}^Wexp(u_w^Tv_c)})$ Упрощая,

J = - \sum_{i = 1}^{W} y_{i} [u_{i}^{T} v_{c} - l o g (\sum_{w = 1}^{W} e x p (u_{w}^{T} v_{c}))]

$J = - \sum_{i=1}^Wy_i[u_i^Tv_c - log(\sum_{w=1}^Wexp(u_w^Tv_c))]$ Теперь мы знаем, что

y

$y$ является горячим кодированием, поэтому все его элементы равны нулю, кроме элемента с, скажем, индексом

k^{t h}

$k^{th}$ . Это означает, что в сумме выше есть только один ненулевой член, соответствующий

y_{k}

$y_k$ а все остальные члены в сумме являются нулями. Таким образом, стоимость также может быть записана в виде:

J = - y_{k} [u_{k}^{T} v_{c} - l o g (\sum_{w = 1}^{W} e x p (u_{w}^{T} v_{c}))]

$J = -y_k[u_k^Tv_c - log(\sum_{w=1}^Wexp(u_w^Tv_c))]$ Примечание: выше

y_{k}

$y_k$ 1.

$\frac{\partial J}{\partial v_c}$

\frac{\partial J}{\partial v_{c}} = - [u_{k} - \frac{\sum_{w = 1}^{W} e x p (u_{w}^{T} v_{c}) u_{w}}{\sum_{x = 1}^{W} e x p (u_{x}^{T} v_{c})}]

$\frac{\partial J}{\partial v_c} = -[u_k - \frac{\sum_{w=1}^Wexp(u_w^Tv_c)u_w}{\sum_{x=1}^Wexp(u_x^Tv_c)}]$

\frac{\partial J}{\partial v_{c}} = \sum_{w = 1}^{W} (\frac{e x p (u_{w}^{T} v_{c})}{\sum_{x = 1}^{W} e x p (u_{x}^{T} v_{c})} u_{w}) - u_{k}

$\frac{\partial J}{\partial v_c} = \sum_{w=1}^W (\frac{exp(u_w^Tv_c)}{\sum_{x=1}^W exp(u_x^Tv_c)}u_w) - u_k$

\frac{\partial J}{\partial v_{c}} = \sum_{w = 1}^{W} ({\hat{y}}_{w} u_{w}) - u_{k}

$\frac{\partial J}{\partial v_c} = \sum_{w=1}^W (\hat{y}_w u_w) - u_k$

Теперь давайте посмотрим, как это можно записать в матричной нотации. Отметим, что:

$u_k$ $U.y$
$\sum_{w=1}^W (\hat{y}_w u_w)$ $u_w$ $U$ $\hat{y}_w$ $U.\hat{y}$

U [\hat{y} - y]

$U[\hat{y} -y]$

$u_i$ $U^T[\hat{y} -y]$

— Сачин Тяги
источник

Просто хотел сказать, что это замечательное объяснение для деривации! Это действительно помогает математикам вроде меня. Спасибо!

— Эрик Ким

+1 за удивительное объяснение!

— Bragboy

\frac{\partial}{\partial B} A^{T} B = A

$\frac{\partial}{\partial B} A^TB = A$

@ParthTamane Пожалуйста, посмотрите на это - math.stackexchange.com/questions/3270789/…

— Сачин Тяги