2
Как мини-пакетный градиентный спуск обновляет веса для каждого примера в пакете?
Если мы обрабатываем, скажем, 10 примеров в пакете, я понимаю, что мы можем суммировать потери для каждого примера, но как работает обратное распространение в отношении обновления весов для каждого примера? Например: Пример 1 -> потеря = 2 Пример 2 -> потеря = -2 Это приводит к средней потере 0 (E …