Я попытаюсь искупить мою предыдущую ошибку, показывая что-то противоположное - выборки достаточны (нижняя граница почти туго)! Посмотрите, что вы думаете ....1/ϵ2Θ~(1ϵ2)1/ϵ2
Ключевая интуиция начинается с двух наблюдений. Во-первых, для того чтобы распределения имели расстояние , должны быть точки с высокой вероятностью ( ). Например, если бы у нас было точки вероятности , у нас было бы . & epsi ; Ом ( & epsi ; 2 ) 1 / & epsi ; 3 & epsi ; 3 ‖ D 1 - D 2 | | 2 & le ; √L2ϵΩ(ϵ2)1/ϵ3ϵ3∥D1−D2∥2≤1ϵ3(ϵ3)2−−−−−−√=ϵ3/2<ϵ
Во-вторых, рассмотрим равномерное распределение с расстоянием . Если бы у нас было точек вероятности , то каждый из них отличался бы на и выборок. С другой стороны, если бы у нас было точек, каждый из них должен был бы отличаться на и снова выборок (постоянное число в точка) достаточно. Таким образом, мы можем надеяться, что среди упомянутых ранее точек высокой вероятности всегда есть некоторая точка, отличающаяся «достаточно», которую рисует . ϵ OL2ϵO ( 1 ) O ( ε ) 1 / ε 2 O ( 1 / ε 2 ) O ( ε 2 ) O ( 1 / ε 2 ) O ( 1 / ε 2 )O(1)O(1)O(ϵ)1/ϵ2O(1/ϵ2)O(ϵ2)O(1/ϵ2)O(1/ϵ2)
Алгоритм. Учитывая и доверительный параметр , пусть . Нарисуйте образцов из каждого дистрибутива. Пусть будет соответствующим более высоким, более низким числом выборок для точки . Если есть какая-нибудь точка для которой и , объявите Распределения разные. В противном случае, объявите их одинаковыми.M X = M log ( 1 / ϵ 2 ) XϵMX=Mlog(1/ϵ2) я,бяяя∈[п]я≥ХXϵ2ai,biii∈[n] ai-bi≥√ai≥X8ai−bi≥ai−−√X√4
Границы корректности и достоверности ( ) зависят от следующей леммы, которая говорит о том, что все отклонения в расстоянии происходят из точек, вероятности которых отличаются на . L 2 Ω ( ϵ 2 )1−e−Ω(M)L2Ω(ϵ2)
Запрос. Предположим, что . Пусть, Пусть . Затем
δ i = | D 1 ( i ) - D 2 ( i ) | S k = { i : δ i > ϵ 2∥D1−D2∥2≥ϵδi=|D1(i)−D2(i)|Σя∈ S к δ 2 я ≥epsi2(1-2Sk={i:δi>ϵ2k}
∑i∈Skδ2i≥ϵ2(1−2k).
Доказательство . У нас есть
Давайте свяжем вторую сумму; мы хотим максимизировать учетом . Поскольку функция строго выпукла и увеличивается, мы можем увеличить цель, взяв любой и увеличив на , уменьшая на . Таким образом, цель будет максимизирована с максимально возможным количеством терминов при их максимальных значениях, а остальные при∑ i ∉ S k δ 2
∑i∈Skδ2i + ∑i∉Skδ2i≥ϵ2.
∑i∉Skδ2i∑i∉Skδi≤2x↦x2δi≥δjδiγδjγ0, Максимальное значение каждого слагаемого равно , и существует не более слагаемых этого значения (поскольку они составляют не более ). Так что
ϵ2k2kϵ22∑i∉Skδ2i≤2kϵ2(ϵ2k)2=2ϵ2k. □
Претензии . Пусть . Если , существует хотя бы одна точка с и .pi=max{D1(i),D2(i)}∥D1−D2∥2≥ϵi∈[n]pi>ϵ24δi≥ϵpi√2
Доказательство . Во-первых, все точки в имеют по определению (и не может быть пустым для по предыдущему утверждению).Skpi≥δi>ϵ2kSkk>2
Во-вторых, поскольку , у нас есть
или, перестановка,
поэтому неравенство
выполняется хотя бы для одной точки в . Теперь выберите . ∑ipi≤2
∑i∈Skδ2i≥ϵ2(12−1k)∑i∈Skpi,
∑i∈Sk(δ2i−piϵ2(12−1k))≥0,
δ2i≥piϵ2(12−1k)
Skk=4□
Претензия (ложные срабатывания) . Если , наш алгоритм объявляет их различными с вероятностью не более .D1=D2e−Ω(M)
Эскиз . Рассмотрим два случая: и . В первом случае число выборок не будет превышать из любого распределения: среднее число выборок составляет а ограничение хвоста говорит, что с вероятностью , выборки не превышают их среднего на аддитивную ; если мы будем осторожны, чтобы сохранить значение в грани хвоста, мы можем объединить границу по ним независимо от того, сколько таких точек существует (интуитивно, граница уменьшается экспоненциально в количестве возможных точек).pi<ϵ2/16pi≥ϵ2/16iX/8<X/16e−Ω(X/pi)=ϵ2e−Ω(M/pi)iX/16pi
В случае мы можем использовать границу Черноффа: она говорит, что, когда мы берем выборок и точка рисуется с вероятностью , вероятность отличия от среднего значения на - самое большее . Здесь пусть , поэтому вероятность ограничена .pi≥ϵ2/16mppmcpm−−−√e−Ω((cpm√)2/pm)=e−Ω(c2)c=X√16e−Ω(X)=ϵ2e−Ω(M)
Таким образом, с вероятностью , (для обоих распределений) число выборок находится в пределах его среднего значения . Таким образом, наш тест не поймает эти точки (они очень близки друг к другу), и мы можем объединить границы всех из них. 1−ϵ2e−Ω(M)ipiXϵ2−−−−√X√16piXϵ216/ϵ2□
Претензия (ложные негативы) . Если , наш алгоритм объявляет их идентичными с вероятностью не более .∥D1−D2∥2≥ϵϵ2e−Ω(M)
Эскиз . Существует некоторая точка с и . Та же оценка Чернова, что и в предыдущем утверждении, говорит, что с вероятностью число выборок отличается от его среднего значения более чем на . Это для (WLOG) распределения которое имеет ; но существует еще меньшая вероятность количества выборок из распределенияipi>ϵ2/4δi≥ϵpi−−√/21−ϵ2e−Ω(M)ipimpim−−−√X√161pi=D1(i)=D2(i)+δii2 отличается от среднего значения этой добавочной величиной (поскольку среднее значение и дисперсия ниже).
Таким образом, с высокой вероятностью число выборок из каждого распределения находится в пределах от его среднего значения; но их вероятности различаются на , поэтому их средства отличаются на
ipiXϵ2−−−√X√16δi
Xϵ2δi≥Xpi−−√2ϵ=piXϵ2−−−−√X−−√2.
Таким образом, с высокой вероятностью для точки число выборок отличается как минимум на . i#samples(1)−−−−−−−−−−−√X√4□
Чтобы завершить наброски, нам нужно более строго показать, что для достаточно большого число выборок достаточно близко к его значению, которое, когда алгоритм использует вместо , это ничего не меняет (что должно быть просто, если оставить некоторое пространство для маневра в константах).Mi#samples−−−−−−−−√mean−−−−−√