Латинская Асимптотика Выборки Гиперкуба

Я пытаюсь построить доказательство для проблемы, над которой я работаю, и одно из допущений, которые я делаю, состоит в том, что множество точек, из которых я беру выборку, плотно по всему пространству. Практически я использую выборку из латинского гиперкуба, чтобы получить свои баллы во всем пространстве выборки. Что я хотел бы знать, так это если образцы гиперкубов на латинице плотны по всему пространству, если вы позволите своему размеру выборки стремиться к ? Если это так, цитата на этот факт будет принята с благодарностью. $\infty$

— Къетил б Халворсен
источник

Да, при условии непрерывного распределения, потому что для любого вы можете установить количество делений таким, чтобы все интервалы для каждой переменной имели ширину . Таким образом, по крайней мере один гиперинтервал (то есть объем выборки) строго содержится в гиперкубе width вокруг любой выбранной вами точки. (Комментарий, а не ответ, поскольку все, что я знаю о LHS, взято из Википедии десять минут назад ...)

ϵ > 0

$\epsilon>0$

< ϵ / 2

$<\epsilon/2$

ϵ

$\epsilon$

— Creosote

Это правда, но я не думаю, что это можно легко использовать, чтобы показать плотность больших образцов латинского гиперкуба. Причина этого заключается в том, что точки выборки в LHS не являются независимыми: наличие точки выборки внутри определенного гиперинтервала не позволяет другим точкам выборки появляться в той же строке / столбце (или каков бы ни был многомерный термин для этого) ,

— С. Каттералл восстановит Монику

@Creosote, как вы думаете, вы могли бы формализовать свой ответ больше?

@RustyStatistician, пожалуйста, расширьте свое вступительное сообщение, чтобы формально объяснить, как того требует ваше доказательство, что вы подразумеваете под "множеством точек, из которых я отбираю образцы, плотно по всему пространству". Спасибо.

— Креозот

Если я возьму исходную выборку из латинского гиперкуба, где настолько велико, мы считаем, что она невелика, плотна ли эта выборка?

n

$n$

Ответы:

Краткий ответ: да, вероятностным путем. Можно показать, что при любом расстоянии , любом конечном подмножестве пространства выборки и любом предписанном «допуске» для подходящих больших размеров выборки мы можем быть убедитесь, что вероятность того, что выборочная точка находится на расстоянии от составляет для всех . $\epsilon>0$ $\{x_1,…,x_m\}$ $\delta>0$ $\epsilon$ $x_i$ $>1-\delta$ $i=1,…,m$

Длинный ответ: я не знаю ни о какой прямо связанной цитате (но см. Ниже). Большая часть литературы по Латинской выборке гиперкубов (LHS) относится к ее свойствам уменьшения дисперсии. Другой вопрос: что значит сказать, что размер выборки имеет тенденцию к ? Для простой случайной выборки IID выборка размера может быть получена из выборки размера путем добавления дополнительной независимой выборки. Что касается LHS, я не думаю, что вы можете сделать это, так как количество образцов указано заранее как часть процедуры. Получается, что вы должны взять последовательность независимых выборок LHS размера . $\infty$ $n$ $n-1$ $1,2,3,...$

Также должен быть какой-то способ интерпретации «плотного» предела, поскольку размер выборки стремится к . Плотность, по-видимому, не поддерживается детерминистически для LHS, например, в двух измерениях вы можете выбрать последовательность выборок LHS размером , чтобы они все придерживались диагонали . Так что какое-то вероятностное определение кажется необходимым. Пусть для каждого , быть образцом размера генерируется в соответствии с некоторым стохастическим механизмом. Предположим, что для разных эти выборки независимы. Тогда для определения асимптотической плотности нам может потребоваться, чтобы для каждого и для каждого $\infty$ $1,2,3,...$ $[0,1)^2$ $n$ $X_n=(X_{n1},X_{n2},...,X_{nn})$ $n$ $n$ $\epsilon>0$ $x$ в выборочном пространстве (предполагается, что ), мы имеем ( как ). $[0,1)^d$ $P(min_{1\leq k\leq n} \|X_{nk}-x\|\geq \epsilon)\to0$ $n\to \infty$

Если выборка получается путем взятия независимых выборок из распределения («случайная выборка IID»), то где - объем мерного шара радиуса . Так что, конечно, случайная выборка IID асимптотически плотна. $X_n$ $n$ $U([0,1)^d)$

P (m i n_{1 \leq k \leq n} ‖ X_{n k} - x ‖ \geq ϵ) = \prod_{k = 1}^{n} P (‖ X_{n k} - x ‖ \geq ϵ) \leq (1 - v_{ϵ} 2^{- d})^{n} \to 0

$P(min_{1\leq k\leq n} \|X_{nk}-x\|\geq \epsilon)=\prod_{k=1}^n P(\|X_{nk}-x\|\geq \epsilon)\leq (1-v_\epsilon 2^{-d})^n \to 0$

v_{ϵ}

$v_\epsilon$

d

$d$

ϵ

$\epsilon$

Теперь рассмотрим случай, когда образцы получены LHS. Теорема 10.1 в этих заметках гласит, что все члены выборки распределены как . Тем не менее, перестановки, используемые в определении LHS (хотя и независимые для разных измерений), вызывают некоторую зависимость между членами выборки ( ), поэтому менее очевидно, что свойство асимптотической плотности выполняется. $X_n$ $X_n$ $U([0,1)^d)$ $X_{nk}, k\leq n$

Исправьте и . Определите . Мы хотим показать, что . Для этого мы можем использовать предложение 10.3 в этих заметках , которое является своего рода центральной теоремой о пределе для выборки из латинского гиперкуба. Определите как если находится в шаре радиуса вокруг , в противном случае . Тогда предложение 10.3 говорит нам, что где и $\epsilon\gt 0$ $x\in [0,1)^d$ $P_n=P(min_{1\leq k\leq n} \|X_{nk}-x\|\geq \epsilon)$ $P_n\to 0$ $f:[0,1]^d\to\mathbb{R}$ $f(z)=1$ $z$ $\epsilon$ $x$ $f(z)=0$ $Y_n:=\sqrt n (\hat{\mu}_{LHS}-\mu)\xrightarrow{d} N(0,\Sigma)$ $\mu=\int_{[0,1]^d} f(z) dz$ $\hat{\mu}_{LHS}=\frac{1}{n}\sum_{i=1}^n f(X_{ni})$ .

Возьмите . В конце концов, для достаточно большого у нас будет . Таким образом, в конечном итоге у нас будет . Поэтому , где - стандартный нормальный cdf. Поскольку был произвольным, отсюда следует, что как требуется. $L>0$ $n$ $-\sqrt n\mu\lt -L$ $P_n=P(Y_n=-\sqrt n \mu)\le P(Y_n\lt -L)$ $\limsup P_n\le \limsup P(Y_n\lt -L)=\Phi(\frac{-L}{\sqrt\Sigma})$ $\Phi$ $L$ $P_n\to 0$

Это доказывает асимптотическую плотность (как определено выше) как для случайной выборки iid, так и для LHS. Неформально это означает, что с учетом любого и любого в пространстве выборки вероятность того, что выборка окажется в пределах от может быть сделана настолько близкой к 1, насколько вы пожелаете, выбрав достаточно большой размер выборки. Понятие асимптотической плотности легко расширить, чтобы применить к конечным подмножествам выборочного пространства - применяя то, что мы уже знаем, к каждой точке конечного подмножества. Более формально это означает, что мы можем показать: для любого и любого конечного подмножества выборочного пространства, $\epsilon$ $x$ $\epsilon$ $x$ $\epsilon>0$ $\{x_1,...,x_m\}$ $min_{1\leq j\leq m} P(min_{1\leq k\leq n} \|X_{nk}-x_j\|\lt \epsilon)\to 1$ (как ). $n\to\infty$

— С. Каттералл Восстановить Монику
источник

У меня два вопроса: 1) Если у вас просто выборка размера где большое, это изменит аргумент? И 2) выборки из латинских гиперкубов могут иметь любой диапазон значений (не обязательно только (0,1)), так что это также меняет ответ?

n

$n$

n

$n$

Кроме того, не могли бы вы объяснить, почему для достаточно большого у нас будет ? Я предполагаю , что означает , что при большом , стремится к нулю, так как в распределении это ?

n

$n$

- \sqrt{n} μ

$-\sqrt{n}\mu$

n

$n$

{\hat{μ}}_{L H S}

$\hat\mu_{LHS}$

N (0, Σ)

$N(0,\Sigma)$

@RustyStatistician Все определяется в терминах конечных выборок, т.е. но большой. В конце я добавил дополнительное объяснение, чтобы объяснить, что происходит. Другие диапазоны значений могут быть легко приспособлены ((0,1) не является специальным), если объем пространства выборки конечен.

n < \infty

$n\lt\infty$

— С. Каттералл восстановил Монику

Можете ли вы уточнить свой короткий ответ?

@RustyStatistician Короткий ответ - это неофициальное краткое изложение моего длинного ответа, которое, я думаю, вы согласитесь, уже довольно сложное! Итак, как предложено выше, было бы хорошо, если бы вы могли переписать свой вопрос в более формальных терминах, чтобы я знал, находится ли мой попытанный ответ на правильном пути (с точки зрения ответа на заданный вопрос) или нет.

— С. Каттералл восстановит Монику

Я не уверен, что это именно то, что вы хотите, но здесь идет.

Вы, LHS, выбираете точек , скажем, из . Мы будем неформально утверждать, что для любого ожидаемое число пустых (гипер) кубоидов размера в каждом измерении стремится к нулю при . $n$ $[0,1)^d$ $\epsilon>0$ $\epsilon$ $n\to\infty$

Пусть так что если мы разделим равномерно на крошечных кубоидов - скажем , микрокубоидов - шириной то каждый кубоид ширины содержит хотя бы один микрокубоид Так что, если мы можем показать, что ожидаемое количество несобираемых микрокубоидов равно нулю, в пределе от , то мы закончили. (Обратите внимание, что наши микрокубоиды расположены на регулярной сетке, но -cuboids могут быть в любом положении.) $m=\lceil 2/\epsilon \rceil$ $[0,1)^d$ $m^d$ $1/m$ $\epsilon$ $n\to\infty$ $\epsilon$

Вероятность полного пропуска данного микрокубоида с первой точкой выборки составляет , независимо от , поскольку первый набор координат выборки (первая точка выборки) может быть выбран произвольно. Учитывая, что первые несколько точек выборки пропустили этот микрокубоид, последующим точкам выборки будет труднее пропустить (в среднем), поэтому вероятность пропуска всех точек меньше . $1-m^{-d}$ $n$ $d$ $n$ $(1-m^{-d})^n$

В есть микрокубоидов , поэтому ожидаемое число, которое пропущено, ограничено сверху - потому что ожидания добавляют - что ноль в пределе при . $m^d$ $[0,1)^d$ $m^d(1-m^{-d})^n$ $n\to\infty$

Обновления ...

(1) Вот рисунок, показывающий, как для данного можно выбрать достаточно большого размера, чтобы в сетке "микрокубоидов" (квадратов на этой 2-мерной иллюстрации) гарантированно был хотя бы один микрокубоид в пределах любой регион размером с . Я показал две "случайно" выбранные области и закрасил фиолетовыми два микрокубоида, которые они содержат. $\epsilon$ $m$ $m\times m$ $\epsilon\times\epsilon$ $\epsilon\times\epsilon$

(2) Рассмотрим любой конкретный микрокубоид. Он имеет объем , часть всего пространства. Таким образом, первый образец LHS, который является единственным, выбранным совершенно свободно, будет пропускать его с вероятностью . Единственный важный факт - это фиксированное значение (мы позволим , но оставим постоянным), которое меньше . $(1/m)^d$ $m^{-d}$ $1-m^{-d}$ $n\to\infty$ $m$ $1$

(3) Теперь подумайте о количестве точек выборки . На рисунке я проиллюстрировал . LHS работает в тонкой сетке из этих сверхмаленьких «нанокубоидов» размера (если хотите), а не больших "Микрокубоиды" размером , но на самом деле это не важно в доказательстве. Доказательству нужно лишь слегка помахать рукой, что в среднем постепенно становится сложнее пропустить заданный микрокубоид, когда вы сбрасываете больше очков. Таким образом , это была вероятность для первых LHS точки отсутствует, но меньше , чем для всех из них недостающую: Это нуль в пределе $n>m$ $n=6m$ $n^{-1}\times n^{-1}$ $m^{-1}\times m^{-1}$ $1-m^{-d}$ $(1-m^{-d})^n$ $n$ $n\to\infty$ .

(4) Все эти эпсилоны хороши для доказательства, но не хороши для вашей интуиции. Итак, вот пара изображений, иллюстрирующих и точек выборки, с выделением наибольшей пустой прямоугольной области. (Сетка - это сетка выборки LHS - «нанокубоиды», упомянутые ранее.) Должно быть «очевидно» (в некотором смутном интуитивном смысле), что наибольшая пустая область будет уменьшаться до сколь угодно малого размера, так как число точек выборки . $n=10$ $n=50$ $n\to\infty$

— креозот
источник

Этот аргумент верен для любого общего интервала? Вместо ?

[0, 1)

$[0,1)$

Да, для любых конечных размеров. Теперь должно быть понятнее, когда я исправил доказательства.

— Креозот

Можно ли дать 1-ое или даже 2-е изображение этого доказательства? Я довольно потерян в этом.

Готово. Рад ответить на дополнительные вопросы, если это будет необходимо.

— креозот

Огромное спасибо! Это определенно помогает сейчас с интуицией.