Нижняя граница для проверки близости в норме ?


11

Мне было интересно, существует ли какая-либо нижняя граница (с точки зрения сложности образца), известная для следующей проблемы:

Учитывая пример доступа оракул двух неизвестных распределений , на , тест (WHP) следует лиD1D2{1,,n}

  • D1=D2
  • илиd2(D1,D2)=D1D22=i=1n(D1(i)D2(i))2ϵ

Batu et al. [BFR + 00] показал, что выборки O(1ϵ4) было достаточно, но я не нашел упоминания о нижней границе?

Я считаю, что всегда можно показать нижнюю границу Ω(1ϵ2) , уменьшив задачу различения монеты, справедливой и ϵ ориентированной, для этой задачи (имитация распределения, поддерживаемого только на двух и отвечает на вопросы тестера в соответствии с бросками монет iid), но это все равно оставляет квадратичный разрыв ...

(Другой момент, который меня заинтересует, - это нижняя граница оценки (с точностью до аддитива ϵ ) этого расстояния L2 - опять же, я не нашел ссылки на такой результат в литературе)

Спасибо за вашу помощь,


Эта проблема обещаний кажется очень похожей на проблему, называемую статистическим различием Сахая и Вадхана, которая является полной проблемой для класса SZK (статистическое нулевое знание); однако они используют расстояние . cs.ucla.edu/~sahai/work/web/2003%20Publications/J.ACM2003.pdf . (Edit: также я думаю, что они предполагают, что у вас есть схема, вычисляющая распределения, а не доступ к оракулу.)L1
usul

Привет, как уже упоминалось в другом комментарии, различие между нормой и самом деле имеет здесь решающее значение - кроме того, в другой статье они устанавливают явный (а не произвольный) порог (в одном из замечаний, они объясняют, что этот порог должен удовлетворять определенному ограничению); и хотите отличить от (что несколько ближе к толерантному тестированию / оценке расстояния, чем к «обычному тестированию», где вы хотите проверить против (но для любого исправленного )). LL2 т = 1 / 3 d 1 & le ; т д 21 - т д 2 = 0 d 2 ≥ & epsi ; & epsi ;L1τ=1/3d1τd21τd2=0d2ϵϵ
Клемент С.

Ответы:


6

Похоже, что образцов - как показано ниже, - достаточно для тестирования, поэтому сложность образца точно равна ; на самом деле, оказывается, что этого количества выборок нам достаточно даже для изучения вплоть до аддитивной к норме .Θ ( 1 / ϵ 2 ) D ϵ L 2O(1/ϵ2)Θ(1/ϵ2) DϵL2


Пусть быть эмпирическая функция плотности получается рисунок IID образцы и настройка затем где . мs1,...,sт~D D (к)D^ms1,,smD| | D - D | | 2 2

D^(k)=def1m=1m1{s=k},k[n]
Xk
DD^22=k=1n(1m=1m1{s=k}D(k))2=1m2k=1n(=1m1{s=k}mD(k))2=1m2k=1n(XkEXk)2
Хкк[п] ЕД - Д | | 2 2Xk=def=1m1{s=k}Bin(m,D(k))Xk(для ) не являются независимыми, но мы можем написать так что для , и применение неравенства Маркова k[n] м3
EDD^22=1m2k=1nE[(XkEXk)2]=1m2k=1nVarXk=1m2k=1nmD(k)(1D(k))1mk=1nD(k)=1m
ЕД - Д | | 2 2 & leepsi2m3ϵ2 Р{| |D - D | |2epsi}1
EDD^22ϵ23
P{DD^2ϵ}13.

(Я имел в виду ответ Усула, начинающийся с «Я попытаюсь исправить свою предыдущую ошибку, показывая что-то противоположное [...]» - что на самом деле выше этого. Я не ожидал этого :)) Что касается обучения верхняя граница, можно показать, что самый наивный алгоритм (то есть тот, который рисует выборки и выводит определяемую эмпирическую плотность), дает распределение которое с постоянной вероятностью близкий к на расстоянии . D ε D L 2m=O(1/ϵ2)D^ϵDL2
Клемент С.

@WW Я только что отредактировал свой ответ.
Клемент С.

3

Я попытаюсь искупить мою предыдущую ошибку, показывая что-то противоположное - выборки достаточны (нижняя граница почти туго)! Посмотрите, что вы думаете ....1/ϵ2Θ~(1ϵ2)1/ϵ2

Ключевая интуиция начинается с двух наблюдений. Во-первых, для того чтобы распределения имели расстояние , должны быть точки с высокой вероятностью ( ). Например, если бы у нас было точки вероятности , у нас было бы . & epsi ; Ом ( & epsi ; 2 ) 1 / & epsi ; 3 & epsi ; 3D 1 - D 2 | | 2 & le ; L2ϵΩ(ϵ2)1/ϵ3ϵ3D1D221ϵ3(ϵ3)2=ϵ3/2<ϵ

Во-вторых, рассмотрим равномерное распределение с расстоянием . Если бы у нас было точек вероятности , то каждый из них отличался бы на и выборок. С другой стороны, если бы у нас было точек, каждый из них должен был бы отличаться на и снова выборок (постоянное число в точка) достаточно. Таким образом, мы можем надеяться, что среди упомянутых ранее точек высокой вероятности всегда есть некоторая точка, отличающаяся «достаточно», которую рисует . ϵ OL2ϵO ( 1 ) O ( ε ) 1 / ε 2 O ( 1 / ε 2 ) O ( ε 2 ) O ( 1 / ε 2 ) O ( 1 / ε 2 )O(1)O(1)O(ϵ)1/ϵ2O(1/ϵ2)O(ϵ2)O(1/ϵ2)O(1/ϵ2)

Алгоритм. Учитывая и доверительный параметр , пусть . Нарисуйте образцов из каждого дистрибутива. Пусть будет соответствующим более высоким, более низким числом выборок для точки . Если есть какая-нибудь точка для которой и , объявите Распределения разные. В противном случае, объявите их одинаковыми.M X = M log ( 1 / ϵ 2 ) XϵMX=Mlog(1/ϵ2) я,бяяя[п]яХXϵ2ai,biii[n] ai-biaiX8aibiaiX4

Границы корректности и достоверности ( ) зависят от следующей леммы, которая говорит о том, что все отклонения в расстоянии происходят из точек, вероятности которых отличаются на . L 2 Ω ( ϵ 2 )1eΩ(M)L2Ω(ϵ2)

Запрос. Предположим, что . Пусть, Пусть . Затем δ i = | D 1 ( i ) - D 2 ( i ) | S k = { i : δ i > ϵ 2D1D22ϵδi=|D1(i)D2(i)|Σя S к δ 2 яepsi2(1-2Sk={i:δi>ϵ2k}

iSkδi2ϵ2(12k).

Доказательство . У нас есть Давайте свяжем вторую сумму; мы хотим максимизировать учетом . Поскольку функция строго выпукла и увеличивается, мы можем увеличить цель, взяв любой и увеличив на , уменьшая на . Таким образом, цель будет максимизирована с максимально возможным количеством терминов при их максимальных значениях, а остальные при i S k δ 2

iSkδi2 + iSkδi2ϵ2.
iSkδi2iSkδi2xx2δiδjδiγδjγ0, Максимальное значение каждого слагаемого равно , и существует не более слагаемых этого значения (поскольку они составляют не более ). Так что ϵ2k2kϵ22
iSkδi22kϵ2(ϵ2k)2=2ϵ2k.    

Претензии . Пусть . Если , существует хотя бы одна точка с и .pi=max{D1(i),D2(i)}D1D22ϵi[n]pi>ϵ24δiϵpi2

Доказательство . Во-первых, все точки в имеют по определению (и не может быть пустым для по предыдущему утверждению).Skpiδi>ϵ2kSkk>2

Во-вторых, поскольку , у нас есть или, перестановка, поэтому неравенство выполняется хотя бы для одной точки в . Теперь выберите . ipi2

iSkδi2ϵ2(121k)iSkpi,
iSk(δi2piϵ2(121k))0,
δi2piϵ2(121k)
Skk=4

Претензия (ложные срабатывания) . Если , наш алгоритм объявляет их различными с вероятностью не более .D1=D2eΩ(M)

Эскиз . Рассмотрим два случая: и . В первом случае число выборок не будет превышать из любого распределения: среднее число выборок составляет а ограничение хвоста говорит, что с вероятностью , выборки не превышают их среднего на аддитивную ; если мы будем осторожны, чтобы сохранить значение в грани хвоста, мы можем объединить границу по ним независимо от того, сколько таких точек существует (интуитивно, граница уменьшается экспоненциально в количестве возможных точек).pi<ϵ2/16piϵ2/16iX/8<X/16eΩ(X/pi)=ϵ2eΩ(M/pi)iX/16pi

В случае мы можем использовать границу Черноффа: она говорит, что, когда мы берем выборок и точка рисуется с вероятностью , вероятность отличия от среднего значения на - самое большее . Здесь пусть , поэтому вероятность ограничена .piϵ2/16mppmcpmeΩ((cpm)2/pm)=eΩ(c2)c=X16eΩ(X)=ϵ2eΩ(M)

Таким образом, с вероятностью , (для обоих распределений) число выборок находится в пределах его среднего значения . Таким образом, наш тест не поймает эти точки (они очень близки друг к другу), и мы можем объединить границы всех из них. 1ϵ2eΩ(M)ipiXϵ2X16piXϵ216/ϵ2

Претензия (ложные негативы) . Если , наш алгоритм объявляет их идентичными с вероятностью не более .D1D22ϵϵ2eΩ(M)

Эскиз . Существует некоторая точка с и . Та же оценка Чернова, что и в предыдущем утверждении, говорит, что с вероятностью число выборок отличается от его среднего значения более чем на . Это для (WLOG) распределения которое имеет ; но существует еще меньшая вероятность количества выборок из распределенияipi>ϵ2/4δiϵpi/21ϵ2eΩ(M)ipimpimX161pi=D1(i)=D2(i)+δii2 отличается от среднего значения этой добавочной величиной (поскольку среднее значение и дисперсия ниже).

Таким образом, с высокой вероятностью число выборок из каждого распределения находится в пределах от его среднего значения; но их вероятности различаются на , поэтому их средства отличаются на ipiXϵ2X16δi

Xϵ2δiXpi2ϵ=piXϵ2X2.

Таким образом, с высокой вероятностью для точки число выборок отличается как минимум на . i#samples(1)X4

Чтобы завершить наброски, нам нужно более строго показать, что для достаточно большого число выборок достаточно близко к его значению, которое, когда алгоритм использует вместо , это ничего не меняет (что должно быть просто, если оставить некоторое пространство для маневра в константах).Mi#samplesmean


Привет, спасибо за это - у меня есть несколько вопросов по поводу алгоритма и анализа (относительно пары очков, которые я не уверен получить): если я хочу, чтобы в конце я хотел только постоянную вероятность успеха, это означает, что константа, если я правильно понимаю (разве я не понял, что )? Так что в этом случае, обращаясь к : согласно алгоритму, он становится - это правильно? 2/3MMXΘ(log1ϵ)
Клемент С.

@ClementC. Извините, мне было не очень понятно! Утверждение заключается в том, что если мы рисуем выборок, то вероятность ошибочности равна , поэтому для постоянная вероятность ошибочности, его выборки. 1ϵ2Mlog(1/ϵ2)O(eM)O(1ϵ2log(1/ϵ2))
Усул

ОК, вот что я собрал. Я рассмотрю доказательства с учетом этого - еще раз спасибо за то время, которое вы потратили на это!
Клемент С.

1

Вы можете начать с попытки решить эту проблему для случая . Я уверен , что в этом случае образцы будут необходимы и достаточны.n=2Θ(1/ϵ2)

Возможно, вам будет полезно взглянуть на преобразование между расстоянием расстоянием (общее расстояние отклонения).L2L1

  • Известно , что, с одной пробы, если известны распределения, общее расстояние вариации отлично характеризует то преимущество , с которым можно отличить от . Таким образом, если общее расстояние отклонения велико и распределения известны, можно построить тест, который является правильным с высокой вероятностью; если общее расстояние отклонения мало, нельзя. Я не знаю, что можно сказать о случае, когда общее расстояние отклонения велико, но распределения неизвестны.D1D2

  • Далее вы можете посмотреть на дистрибутивы продуктов, и . Используя общее расстояние изменения (расстояние ), кажется, что нет хороших границ, которые бы с . Однако, используя расстояние , я считаю, что есть хорошие оценки как функции . (К сожалению, я не могу выкопать конкретную ссылку на эти оценки / границы, поэтому я надеюсь, что я не запомнил.) Есть также известные границы, которые позволяют вам оценить расстояние как функцию расстояния ,D1nD2nL1||D1nD2n||1||D1D2||1L2||D1nD2n||2||D1D2||2L1L2

  • Следовательно, один из подходов, который вы могли бы попробовать, заключается в том, чтобы связать , а затем получить .||D1nD2n||2||D1nD2n||1

Я не знаю, приведет ли это к чему-то хорошему или нет; это просто идея. Возможно, авторы цитируемой вами статьи уже попробовали или рассмотрели что-то подобное.

Возможно полезные ссылки:


Привет спасибо за ответ Однако меня интересует асимптотическая нижняя граница, когда . В частности, отношение между нормами и включает в себя фактор - это означает, что они действительно эквивалентны для постоянной , но асимптотически сильно различаются; насколько я могу судить, использование dstance качестве прокси-сервера не вариант (как известно, для тестирования близости на расстоянии точная сложность равна [BFR + 10 , Val11 ]nL2L1nnL1L1Θ(n2/3/poly(ϵ))
Клемент С.

0

РЕДАКТИРОВАТЬ: это неправильно! Смотрите обсуждение в комментариях - я укажу на недостаток ниже.

Я думаю, мы можем сказать, что необходимы.1ϵ4

Установите . Пусть - равномерное распределение (вероятность каждой точки ), и пусть отличается от равномерного на аддитивную величину в каждой точке. Убедитесь, что расстояние равно .n=Θ(1ϵ2)D1=Θ(ϵ2)D2±Θ(ϵ2)L2ϵ

Таким образом, мы должны отличать стороннюю честную монету от сторонней -смещенной монеты. Я думаю , что это должно быть по крайней мере , столь же трудно , как рассказывает односторонний монету из односторонний -biased монеты, что потребовало бы сэмплы. Изменить: это неверно! Монета аддитивна -biased, но она смещена мультипликативный с коэффициентом постоянная. Как отмечает DW, это означает , что постоянное число выборок в точку отличает от .nnΘ(ϵ2)22Θ(ϵ2)Θ(1(ϵ2)2)=Θ(1ϵ4)ϵ2D1D2


Обратите внимание, что настолько далеко, насколько мы можем выдвинуть эту строку аргумента. Конкретно, предположим, что мы попытались увеличить , скажем, до . В равномерном распределении каждая точка имеет вероятность . Но в нам нужно, чтобы каждая точка отличалась от равномерной на . Это невозможно с .1ϵ4n1ϵ3ϵ3D2ϵ2.5ϵ2.5ϵ3

Более абстрактно, предположим, что мы хотим, чтобы каждая точка отличалась от равномерной на . Тогда самое большее, на что мы можем установить , будет . Чтобы получить расстояние от , нам нужно убедиться, что квадратный корень из суммы расстояний равен , поэтому , поэтому поэтому , и мы получаем .ϵkn1ϵkL2ϵϵn(ϵk)2=ϵϵk/2=ϵk=2n=1ϵ2

Кроме того, я думаю, что тот же аргумент говорит о том, что, если нас интересует расстояние при , нам требуется , поэтому мы бы выбрали , поэтому число выборок будет равно . Я думаю, что это имеет смысл как оценка, которая не зависит от . Это приближается к бесконечности как . Если бы вы пытались различить два распределения на расстоянии от без ограничения по , я бы сделал неограниченно большим и растянул бы разницу сколь угодно тонким, чтобы вы никогда не могли различить их (Lpp>1k=pp1n=1/ϵpp11/ϵ2pp1np1L1ϵnnт.е. для всех ) не достаточно фиксированного количества выборок . Это также приближается к как ; это имеет смысл как ограничение, потому что для нормы мы можем установить и позволить каждой точке отличаться на ; нам нужно сэмплировать несколько точек чтобы убедиться, что они отличаются от единообразных, что приведет к выборкам.n1ϵ3pLn=1ϵΘ(ϵ)1ϵ21ϵ3


1. Вы действительно имеете в виду, что отличается от униформы на в каждой точке? Я подозреваю, что это опечатка, а вы имели в виду . D2±1/ϵ2±ϵ2
DW

1
2. Я не покупаю , что отличить от требует образцов. Мне кажется, что образцов достаточно. Объяснение (интуиция): предположим, мы собрали выборки и посчитали, сколько раз встречается каждое возможное значение. Если они пришли из , то каждое должно происходить 100 раз (с std dev 10). Если они пришли из , то каждое должно происходить 200 раз (стандартное отклонение 14) для половины из них, / 0 раз (стандартное отклонение 0) для другой половины. Этого достаточно легко различать между ними, если вы знаете , вы имеете дело с любой или . D1D21/ϵ4Θ(1/ϵ2)m=100/ϵ2D1D2D1D2
DW

@DW (1) ты прав! Исправлена. (2) Как вы говорите, я согласен, но я думаю, что с разными вариантами выбора это сложнее. Я представляю что-то вроде этого: , поэтому ставит вероятность в каждую точку. Тогда отличается на в каждой точке (проверьте, что расстояние равно ), так что это повышает вероятность или в каждой точке. n=1/100ϵ2D1100ϵ2D210ϵ2L2ϵ90ϵ2110ϵ2
усул

1
Я думаю, что образцов все еще достаточно. Соберите выборок и , сколько раз встречается каждое возможное значение. Для каждое должно происходить 1 000 000 раз (стандартное отклонение ). Для каждое должно происходить 900 000 раз (стандартное отклонение ) или 1 100 000 раз (стандартное отклонение ). Этого достаточно легко различать между ними, если мы знаем , что мы имеем дело с любой или , так как разница между 1000000 и 1100000 100 стандартных отклонений, то есть, огромный. m = 10 6 n D 1 1000 D 21000 1000 D 1 D 2O(1/ϵ2)m=106nD11000D210001000D1D2
DW

@DW Я думал об этом больше - ты прав. Если их средние значения отличаются постоянным мультипликативным коэффициентом, то их должно различать постоянное число выборок на точку. Это мультипликативный, а не аддитивный фактор, который имеет значение. Такой подход дает только нижнюю границу . 1/ϵ2
Усул
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.