Статистика и большие данные derivative

6

Обратное распространение с Softmax / Cross Entropy

Я пытаюсь понять, как работает обратное распространение для выходного слоя softmax / cross-entropy. Функция кросс-энтропийной ошибки E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j с и в качестве цели и выхода на нейроне соответственно. Сумма по каждому нейрону в выходном слое. Сам является результатом функции softmax:tttooojjjojojo_j oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} Опять же, сумма по каждому нейрону …

40 backpropagation derivative softmax cross-entropy

4

Как получается функция затрат из логистической регрессии

Я прохожу курс машинного обучения в Стэнфорде на Coursera. В главе о логистической регрессии функция затрат выглядит следующим образом: Затем он получен здесь: Я попытался получить производную функции стоимости, но я получил что-то совершенно другое. Как получается производная? Какие промежуточные шаги?

29 regression logistic gradient-descent derivative

1

Пошаговый пример автоматического дифференцирования в обратном режиме

Не уверен, принадлежит ли этот вопрос здесь, но он тесно связан с градиентными методами в оптимизации, которая, кажется, здесь уместна. В любом случае, не стесняйтесь мигрировать, если считаете, что какое-то другое сообщество обладает большим опытом в этой теме. Короче говоря, я ищу пошаговый пример автоматического дифференцирования в обратном режиме . …

27 optimization derivative tensorflow automatic-differentiation

1

Вывод замены переменных функции плотности вероятности?

В книге распознавания образов и машинного обучения (формула 1.27) она дает py(y)=px(x)∣∣∣dxdy∣∣∣=px(g(y))|g′(y)|py(y)=px(x)|dxdy|=px(g(y))|g′(y)|p_y(y)=p_x(x) \left | \frac{d x}{d y} \right |=p_x(g(y)) | g'(y) | гдеx=g(y)x=g(y)x=g(y),px(x)px(x)p_x(x) - это pdf, соответствующийpy(y)py(y)p_y(y) отношению к изменению переменной. В книгах говорится, что это потому, что наблюдения, попадающие в диапазон (x,x+δx)(x,x+δx)(x, x + \delta x) , при малых …

16 machine-learning probability self-study derivative jacobian

3

Как я могу подогнать сплайн к данным, которые содержат значения и 1/2 производные?

У меня есть набор данных, который содержит, скажем, некоторые измерения для положения, скорости и ускорения. Все приходят от одного и того же «бега». Я мог бы построить линейную систему и подогнать полином для всех этих измерений. Но могу ли я сделать то же самое со сплайнами? Что такое способ «R»? …

14 r model fitting splines derivative

2

Производная гауссовского процесса

Я считаю, что производная гауссовского процесса (ГП) - это другая ГП, и поэтому я хотел бы знать, существуют ли уравнения замкнутой формы для уравнений предсказания производной от ГП? В частности, я использую квадратичное экспоненциальное (также называемое гауссовским) ковариационное ядро и хочу знать, как делать предсказания о производной гауссовского процесса.

12 stochastic-processes gaussian-process derivative

1

Аппроксимация второго порядка функции потерь (Книга глубокого обучения, 7.33)

В книге Гудфеллоу (2016) о глубоком обучении он говорил об эквивалентности раннего прекращения регуляризации L2 ( https://www.deeplearningbook.org/contents/regularization.html стр. 247). Квадратичная аппроксимация функции стоимости jjj определяется как: J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) HHHf(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2

11 neural-networks deep-learning loss-functions derivative

1

Интерпретация производной Радона-Никодима между вероятностными мерами?

Я видел в некоторых моментах использование производной Радона-Никодима одной вероятностной меры по отношению к другой, особенно в дивергенции Кульбака-Лейблера, где она является производной вероятностной меры модели для некоторого произвольного параметра с относительно реального параметра θ 0 :θθ\thetaθ0θ0\theta_0 dPθdPθ0dPθdPθ0\frac {dP_\theta}{dP_{\theta_0}} Где это обе вероятностные меры в пространстве точек данных, обусловленные значением …

11 mathematical-statistics kullback-leibler derivative measure-theory

3

Может ли нейронная сеть выучить функционал и его функциональную производную?

Я понимаю, что нейронные сети (НС) можно считать универсальными аппроксиматорами как для функций, так и для их производных, при определенных предположениях (как для сети, так и для функции, которую нужно аппроксимировать). На самом деле, я провел ряд тестов на простые, но нетривиальные функции (например, полиномы), и мне кажется, что я …

11 machine-learning neural-networks function derivative

1

Чем обоснован этот расчет производной матричной функции?

В курсе машинного обучения Эндрю Нг он использует следующую формулу: ∇Atr(ABATC)=CAB+CTABT∇Atr(ABATC)=CAB+CTABT\nabla_A tr(ABA^TC) = CAB + C^TAB^T и он делает быстрое доказательство, которое показано ниже: ∇Atr(ABATC)=∇Atr(f(A)ATC)=∇∘tr(f(∘)ATC)+∇∘tr(f(A)∘TC)=(ATC)Tf′(∘)+(∇∘Ttr(f(A)∘TC)T=CTABT+(∇∘Ttr(∘T)Cf(A))T=CTABT+((Cf(A))T)T=CTABT+CAB∇Atr(ABATC)=∇Atr(f(A)ATC)=∇∘tr(f(∘)ATC)+∇∘tr(f(A)∘TC)=(ATC)Tf′(∘)+(∇∘Ttr(f(A)∘TC)T=CTABT+(∇∘Ttr(∘T)Cf(A))T=CTABT+((Cf(A))T)T=CTABT+CAB\nabla_A tr(ABA^TC) \\ = \nabla_A tr(f(A)A^TC) \\ = \nabla_{\circ} tr(f(\circ)A^TC) + \nabla_{\circ}tr(f(A)\circ^T C)\\ =(A^TC)^Tf'(\circ) + (\nabla_{\circ^T}tr(f(A)\circ^T C)^T \\ = C^TAB^T + (\nabla_{\circ^T}tr(\circ^T)Cf(A))^T \\ =C^TAB^T + ((Cf(A))^T)^T …

10 machine-learning matrix derivative

Вопросы с тегом «derivative»