Основное преимущество использования мини-пакета по сравнению с полным набором данных восходит к фундаментальной идее стохастического градиентного спуска 1 .
В пакетном градиентном спуске вы вычисляете градиент по всему набору данных, усредняя потенциально огромный объем информации. Для этого требуется много памяти. Но реальный гандикап - это траектория периодического градиента, в результате чего вы окажетесь в плохом месте (седловая точка).
В чистом SGD, с другой стороны, вы обновляете свои параметры, добавляя (знак минус) градиент, рассчитанный для одного экземпляра набора данных. Поскольку он основан на одной случайной точке данных, он очень шумный и может отклоняться в направлении, далеко от градиента партии. Тем не менее, шумность - это именно то, что вам нужно при невыпуклой оптимизации, поскольку она помогает вам избежать седловых точек или локальных минимумов (теорема 6 в [2]). Недостаток в том, что он ужасно неэффективен, и вам нужно многократно перебирать весь набор данных, чтобы найти хорошее решение.
Методология мини-пакета - это компромисс, который вводит достаточно шума для каждого обновления градиента, в то же время достигая относительной быстрой сходимости.
1 Ботту Л. (2010). Масштабное машинное обучение со стохастическим градиентным спуском. В Слушаниях COMPSTAT'2010 (стр. 177-186). Физика-Верлаг HD.
[2] Ge, R., Huang, F., Jin, C. & Yuan, Y. (2015, июнь). Escape From Saddle Points-Online Стохастический градиент для тензорного разложения. В COLT (стр. 797-842).
РЕДАКТИРОВАТЬ :
Я только что увидел этот комментарий на фейсбуке Яна ЛеКуна, который дает свежий взгляд на этот вопрос (извините, не знаю, как связаться с fb.)
Тренировки с большими миниатчами вредны для вашего здоровья. Что еще более важно, это плохо для вашей тестовой ошибки. Друзья не позволяют друзьям использовать мини-пакеты, размер которых превышает 32. Давайте посмотрим правде в глаза: с 2012 года единственные люди переключились на размеры мини-пакетов, превышающие один, потому что графические процессоры неэффективны для пакетов размером менее 32. Это ужасная причина. Это просто означает, что наше оборудование отстой.
Он процитировал этот документ, который был только что опубликован на arXiv несколько дней назад (апрель 2018), который стоит прочитать,
Доминик Мастерс, Карло Луши, Пересмотр тренинга для малых групп по глубоким нейронным сетям , arXiv: 1804.07612v1
Из аннотации
В то время как использование больших мини-пакетов увеличивает доступный вычислительный параллелизм, было показано, что обучение с небольшими пакетами обеспечивает улучшенную производительность обобщений ...
Наилучшая производительность была последовательно получена для размеров мини-партий от m = 2 до m = 32, что контрастирует с недавней работой, пропагандирующей использование размеров мини-партий в тысячах.