Вопросы с тегом «gradient-descent»

4
Pytorch, каковы аргументы градиента
Я читал документацию PyTorch и нашел пример, в котором они пишут gradients = torch.FloatTensor([0.1, 1.0, 0.0001]) y.backward(gradients) print(x.grad) где x была начальной переменной, из которой был построен y (3-вектор). Вопрос в том, каковы аргументы 0,1, 1,0 и 0,0001 тензора градиентов? Документация по этому поводу не очень ясна.

9
Почему веса нейронных сетей должны быть инициализированы случайными числами? [закрыто]
Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме Stack Overflow. Закрыт 9 дней назад . Уточните этот вопрос Пытаюсь построить нейронную сеть с нуля. Во всей литературе по ИИ существует консенсус …

5
Распространенные причины нанов во время тренировок
Я заметил, что во время тренировок вводится частое явление NAN. Часто кажется, что это происходит из-за того, что веса во внутреннем продукте / полностью связанных или сверточных слоях взрываются. Это происходит потому, что вычисление градиента резко увеличивается? Или это из-за инициализации веса (если да, то почему инициализация веса имеет такой …

1
R: реализация моего собственного алгоритма повышения градиента
Я пытаюсь написать свой собственный алгоритм повышения градиента. Я понимаю, что существуют такие пакеты, как gbmиxgboost, , но я хотел бы понять , как работает алгоритм, написав мой собственный. Я использую irisнабор данных, и мой результат Sepal.Length(непрерывный). Моя функция потерь mean(1/2*(y-yhat)^2)(в основном среднеквадратическая ошибка с 1/2 впереди), поэтому мой соответствующий …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.