Я пытаюсь проработать первый набор проблем из материала онлайн-курса cs224d в Стэнфорде, и у меня возникли некоторые проблемы с проблемой 3A: При использовании модели пропуска грамм word2vec с функцией прогнозирования softmax и функцией кросс-энтропийной потери мы хочу вычислить градиенты по отношению к предсказанным векторам слов. Итак, учитывая функцию softmax:
и кросс-энтропийная функция:
нам нужно вычислить
Мои шаги следующие:
теперь данный - один горячий вектор, и я - правильный класс:
Это правильно или это может быть упрощено дальше? Я хочу убедиться, что я на правильном пути, поскольку решения проблем не публикуются в Интернете. Кроме того, правильное выполнение письменных заданий важно для правильного выполнения заданий по программированию.