Насколько я знаю, при принятии Stochastic Gradient Descent в качестве алгоритма обучения кто-то использует «эпоху» для полного набора данных и «пакет» для данных, используемых на одном этапе обновления, тогда как другой использует соответственно «пакет» и «мини-пакет», и другие используют «эпоху» и «минибат». Это приносит много путаницы при обсуждении.
Так что же правильно сказать? Или это просто диалекты, которые все приемлемы?