Я изучаю проблемы письменных заданий в классе глубокого обучения Стэнфордского НЛП http://cs224d.stanford.edu/assignment1/assignment1_soln
Я пытаюсь понять ответ для 3а, где они ищут производную от вектора для центрального слова.
Предположим, вам дан вектор предсказанного слова соответствующий центральному слову c для скипграммы, а предсказание слова выполняется с помощью функции softmax, найденной в моделях word2vec.
Где w обозначает w-е слово, а (w = 1, ..., W) - «выходные» слова-слова для всех слов в словаре. Предположим, что к этому прогнозу применяется перекрестная энтропийная стоимость, а слово o является ожидаемым словом.
Где - матрица всех выходных векторов, и пусть - вектор-столбец предсказания softmax для слов, а y - метка, содержащая одну горячую метку, которая также вектор столбца.у
Где перекрестная энтропия - это
Таким образом, ответ для градиента для центрального вектора:
Может ли кто-нибудь показать мне шаги, чтобы добраться до этого? Я использовал этот вопрос в качестве эталона Производной перекрестной потери энтропии в word2vec, но я специально хочу знатьпредставление.