Хороший теоретический анализ со схемами замены и без них в контексте итеративных алгоритмов, основанных на случайных ничьих (с которыми обучаются различающие глубокие нейронные сети (DNN)), можно найти здесь
Короче говоря, оказывается, что выборка без замены приводит к более быстрой сходимости, чем выборка с заменой.
Я приведу здесь краткий анализ на основе игрушечного примера, который они предоставляют: допустим, мы хотим оптимизировать следующую целевую функцию:
xopt=argminx12∑i=1N(x−yi)2
где цель . В этом примере мы пытаемся найти оптимальное значение x , учитывая N меток y i, очевидно.yi∼N(μ,σ2)xNyi
Итак, если бы мы должны были решить для оптимального в вышеупомянутом непосредственно, то мы взяли бы производную функции потерь здесь, установили бы ее в 0, и решили бы для x . Так что для нашего примера выше, потеряxx
L=12∑i=1N(x−yi)2
и это первая производная будет:
δLδx=∑i=1N(x−yi)
Настройка до 0 и решение дляxдает:δLδxx
xopt=1N∑i=1Nyi
Другими словами, оптимальным решением является не что иное, как среднее значение выборки всех выборок y .Ny
Теперь, если бы мы не смогли выполнить все вышеперечисленные вычисления одновременно, нам пришлось бы делать это рекурсивно, с помощью приведенного ниже уравнения обновления градиентного спуска:
xi=xi−1−λi∇(f(xi−1))
и просто вставив наши термины здесь, получаем:
xi=xi−1−λi(xi−1−yi)
Если мы запустим выше для всех , тогда мы эффективно выполняем это обновление без замены. Тогда возникает вопрос, можем ли мы также получить оптимальное значение x таким образом? (Помните, что оптимальное значение x - это не что иное, как среднее значение выборки y ). Ответ - да, если вы позволите λ i = 1 / i . Чтобы увидеть, это мы расширяем:i∈1,2,...Nxxyλi=1/i
xi=xi−1−λi(xi−1−yi) xi=xi−1−1i(xi−1−yi) xi=ixi−1−(xi−1−yi)i xi=(i−1)xi−1+yii ixi=(i−1)xi−1+yi
Последнее уравнение, однако, не что иное, как формула для скользящего среднего! Таким образом, поскольку мы перебираем множество из , i = 2 и т. Д. Вплоть до i = N , мы выполняли бы наши обновления без замены, и наша формула обновления дает нам оптимальное решение x , которое является выборочное среднее!i=1i=2i=Nx
NxN=(N−1)xN−1+yN==>xN=1N∑i=1Nyi=μ
В отличие от этого, однако, если бы мы на самом деле рисовали с заменой, тогда, хотя наши ничьи были бы тогда действительно независимыми, оптимизированное значение отличалось бы от (оптимального) среднего значения μ , и квадратная ошибка была бы задана как:xNμ
E{(xN−μ)2}
что будет положительным значением, и этот простой игрушечный пример может быть расширен до более высоких измерений. Это приводит к тому, что мы хотели бы выполнить выборку без замены в качестве более оптимального решения.
Надеюсь, это прояснит это еще немного!