Является ли обычной практикой минимизация средней потери по партиям вместо суммы?

16

В Tensorflow есть пример учебника по классификации CIFAR-10 . В учебном пособии средняя кросс-энтропийная потеря по партии сведена к минимуму.

def loss(logits, labels):
  """Add L2Loss to all the trainable variables.
  Add summary for for "Loss" and "Loss/avg".
  Args:
    logits: Logits from inference().
    labels: Labels from distorted_inputs or inputs(). 1-D tensor
            of shape [batch_size]
  Returns:
    Loss tensor of type float.
  """
  # Calculate the average cross entropy loss across the batch.
  labels = tf.cast(labels, tf.int64)
  cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_logits(
      logits, labels, name='cross_entropy_per_example')
  cross_entropy_mean = tf.reduce_mean(cross_entropy, name='cross_entropy')
  tf.add_to_collection('losses', cross_entropy_mean)

  # The total loss is defined as the cross entropy loss plus all of the weight
  # decay terms (L2 loss).
  return tf.add_n(tf.get_collection('losses'), name='total_loss')

См. Cifar10.py , строка 267.

Почему это не минимизирует сумму по партии? Есть ли разница? Я не понимаю, как это повлияет на расчет backprop.

neural-networks loss-functions tensorflow

— Clash
источник

Точно не связано с суммой / средним, но выбор потерь - выбор дизайна приложения. Например, если вы хорошо справляетесь со средней, оптимизируйте среднее. Если ваше приложение чувствительно к худшему сценарию (например, автокатастрофе), вам следует оптимизировать максимальное значение.

— Алекс Креймер

См. Также: stats.stackexchange.com/questions/358786/…

— Sycorax сообщает, что восстановит Монику

16

Как уже упоминалось в pkubik, обычно есть параметр регуляризации для параметров, который не зависит от входных данных, например, в тензорном потоке это похоже на

# Loss function using L2 Regularization
regularizer = tf.nn.l2_loss(weights)
loss = tf.reduce_mean(loss + beta * regularizer)

В этом случае усреднение по мини-партии помогает поддерживать фиксированное соотношение между cross_entropyпотерями и regularizerпотерями, в то время как размер партии изменяется.

Более того, скорость обучения также чувствительна к величине потерь (градиент), поэтому для нормализации результата при разных размерах партии выбор среднего значения представляется лучшим вариантом.

Обновить

Эта статья Facebook (точная, большая мини-партия SGD: обучение ImageNet за 1 час) показывает, что на самом деле масштабирование скорости обучения в соответствии с размером партии работает довольно хорошо:

Правило линейного масштабирования: когда размер мини-пакета умножается на k, умножьте скорость обучения на k.

по сути, это то же самое, что умножить градиент на k и сохранить скорость обучения без изменений, так что я думаю, что брать среднее значение не нужно.

— dontloo
источник

8

Я сосредоточусь на части:

Я не понимаю, как это повлияет на расчет backprop.

$\frac{1}{B}$ $L_{SUM} = B \cdot L_{AVG}$ $B$ $\frac{d L_{SUM}}{{dx}} = B \frac{d L_{AVG}}{{dx}}$

\frac{d L}{d x} = lim_{Δ \to 0} \frac{L (x + Δ) - L (x)}{Δ}

$\frac{dL}{{dx}} = \mathop {\lim }\limits_{\Delta \to 0} \frac{{L\left( {x + \Delta } \right) - L\left( x \right)}}{\Delta }$

\frac{d (c \cdot L)}{d x} = lim_{Δ \to 0} \frac{c \cdot L (x + Δ) - c \cdot L (x)}{Δ}

$\frac{d (c \cdot L)}{{dx}} = \mathop {\lim }\limits_{\Delta \to 0} \frac{{c \cdot L\left( {x + \Delta } \right) - c \cdot L\left( x \right)}}{\Delta }$

\frac{d (c \cdot L)}{d x} = c \cdot lim_{Δ \to 0} \frac{L (x + Δ) - L (x)}{Δ} = c \cdot \frac{d L}{d x}

$\frac{d (c \cdot L)}{{dx}} = c \cdot \mathop {\lim }\limits_{\Delta \to 0} \frac{{L\left( {x + \Delta } \right) - L\left( x \right)}}{\Delta } = c \cdot \frac{d L}{{dx}}$

В SGD мы обновляли бы веса, используя их градиент, умноженный на скорость обучения и мы ясно видим, что мы можем выбрать этот параметр таким образом, чтобы конечные обновления весов были равны. Первое правило обновления: и второе правило обновления (представьте, что ): $\lambda$

W := W + λ_{1} \frac{d L_{S U M}}{d W}

$W := W + \lambda_1 \frac{dL_{SUM}}{dW}$

λ_{1} = \frac{λ_{2}}{B}

$\lambda_1 = \frac{\lambda_2}{B}$

W := W + λ_{1} \frac{d L_{A V G}}{d W} = W + \frac{λ_{2}}{B} \frac{d L_{S U M}}{d W}

$W := W + \lambda_1 \frac{dL_{AVG}}{dW} = W + \frac{\lambda_2}{B} \frac{dL_{SUM}}{dW}$

Отличная находка dontloo может предположить, что использование суммы может быть немного более подходящим подходом. Чтобы оправдать среднее значение, которое кажется более популярным, я бы добавил, что использование суммы может вызвать некоторые проблемы с регуляризацией веса. Настройка коэффициента масштабирования для регуляризаторов для разных размеров пакетов может быть такой же раздражающей, как и настройка скорости обучения.

— pkubik
источник