Почему в моей симуляции нарушается центральная предельная теорема?

21

Допустим, у меня есть следующие цифры:

4,3,5,6,5,3,4,2,5,4,3,6,5

Я выбираю некоторые из них, скажем, 5 из них, и вычисляю сумму 5 образцов. Затем я повторяю это снова и снова, чтобы получить много сумм, и я отображаю значения сумм в гистограмме, которая будет гауссовой из-за центральной предельной теоремы.

Но когда они следуют за числами, я просто заменил 4 большим числом:

4,3,5,6,5,3,10000000,2,5,4,3,6,5

Суммы выборки из 5 выборок из них никогда не становятся гауссовскими в гистограмме, но больше похожи на расщепление и становятся двумя гауссианами. Почему это?

central-limit-theorem

— JimSD
источник

1

Это не будет сделано, если вы увеличите его до значения, превышающего n = 30 или около того ... только мое подозрение и более краткая версия / повторение принятого ответа ниже.

— oemb1905

@JimSD CLT - это асимптотический результат (то есть о распределении стандартизированных средних значений выборки или сумм в пределе при изменении размера выборки до бесконечности). это не . То, на что вы смотрите (подход к нормальности в конечных выборках), является не просто результатом CLT, а связанным результатом.

n = 5

$n=5$

n \to \infty

$n\to\infty$

— Glen_b

3

@ oemb1905 n = 30 недостаточно для того, чтобы предположить подобную асимметрию. В зависимости от того, насколько редко это загрязнение со значением, например, может занять n = 60 или n = 100 или даже больше, прежде чем нормаль будет выглядеть как разумное приближение. Если загрязнение составляет около 7% (как в вопросе), n = 120 все еще несколько

10^{7}

$10^7$

— искажено

2

Возможный дубликат Почему увеличение размера образца бросков монеты не улучшает приближение нормальной кривой?

— Секст Эмпирик

Подумайте, что значения в таких интервалах, как (1 100 000, 1 900 000), никогда не будут достигнуты. Но если вы внесете средства из приличных сумм в эти суммы, это сработает!

— Дэвид

18

Напомним точно, что говорит центральная предельная теорема.

Если являются независимыми и одинаково распределенными случайными величинами с (общим) средним и стандартным отклонением , то сходится по распределению к стандартному нормальному распределению (*). $X_1, X_2, \cdots, X_k$ $\mu$ $\sigma$ $\frac{X_1 + X_2 + \cdots + X_k}{k\frac{\sigma}{\sqrt{k}}}$ $N(0, 1)$

Это часто используется в «неформальной» форме:

Если являются независимыми и одинаково распределенными случайными величинами с (общим) средним значением и стандартным отклонением , то сходится "в распределении" к стандартному нормальному распределению . $X_1, X_2, \cdots, X_k$ $\mu$ $\sigma$ $X_1 + X_2 + \cdots + X_k$ $N(k \mu, \sqrt{k} \sigma)$

Нет хорошего способа сделать эту форму CLT математически точной, так как «предельное» распределение меняется, но это полезно на практике.

Когда у нас есть статический список чисел, таких как

4,3,5,6,5,3,10000000,2,5,4,3,6,5

и мы производим выборку, выбирая случайное число из этого списка, чтобы применить центральную предельную теорему, мы должны быть уверены, что наша схема выборки удовлетворяет этим двум условиям независимости и одинаково распределена.

Идентично распределенный не проблема: каждый номер в списке с равной вероятностью будет выбран.
Независимость более тонкая и зависит от нашей схемы отбора проб. Если мы производим забор без замены , тогда мы нарушаем независимость. Только когда мы проводим выборку с заменой, применима центральная предельная теорема.

Итак, если мы используем заменяющую выборку в вашей схеме, тогда мы сможем применить центральную предельную теорему. В то же время, вы правы, если наша выборка имеет размер 5, тогда мы увидим очень разное поведение в зависимости от того, выбрано или не выбрано очень большое число в нашей выборке.

Так в чем же проблема? Что ж, скорость сходимости к нормальному распределению очень зависит от формы популяции, из которой мы отбираем образцы, в частности, если наша популяция очень асимметрична, мы ожидаем, что для ее сближения потребуется много времени. Это имеет место в нашем примере, поэтому мы не должны ожидать, что выборка размера 5 достаточна, чтобы показать нормальную структуру.

Выше я повторил ваш эксперимент (с заменой выборки) для выборок размером 5, 100 и 1000. Вы можете видеть, что нормальная структура возникает для очень больших выборок.

(*) Обратите внимание, что здесь необходимы некоторые технические условия, такие как конечное среднее и дисперсия. Они легко подтверждаются в нашей выборке из списка примеров.

— Мэтью Друри
источник

Спасибо за очень быстрый и идеальный ответ. Идея CLT, замена, необходимость большего количества выборок, когда распределение данных искажено, ... Это очень ясно сейчас. Мое первоначальное намерение вопроса, как вы упомянули, это случай, когда одно большое число включено без замены, а количество выборок является фиксированным. Он ведет себя очень по-разному, и поэтому мы должны рассмотреть «условный» CLT для случая, когда большое число выбирается, а случай не выбирается. Интересно, есть ли какие-либо исследования или предварительная работа для этого ... Но все равно спасибо.

— JimSD

не знаю, применимо ли здесь, но теорема о конвергенции CLT регулируется асимметрией en.wikipedia.org/wiki/Berry%E2%80%93Esseen_theorem

— seanv507

Я немного сбит с толку определением CLT @ MatthewDrury. Я думаю, что сходится к константе LLN, а не к нормальному распределению.

\frac{\sum X_{k}}{k}

$\frac{\sum X_k}{k}$

— JTH

1

@ seanv507 абсолютный третий момент, а не асимметрия; эти два связаны, но отметим, что для симметричного распределения с конечным третьим моментом оценка Берри-Эссеена нане равно 0, потому что - это не асимметрия

| F_{n} (x) - Φ (x) |

$|F_n(x)-\Phi(x)|$

ρ / σ^{3}

$\rho/\sigma^3$

— Glen_b

1

@Glen_b Да, я был немного неформален (что, возможно, не следовало), но я могу это исправить сегодня днем, так как это привело к некоторой путанице.

— Мэтью Друри

12

В общем, размер каждой выборки должен быть больше чтобы приближение CLT было хорошим. Эмпирическое правило - это образец размером или более. Но, с населением вашего первого примера, в порядке. $5$ $30$ $5$

pop <- c(4, 3, 5, 6, 5, 3, 4, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 5
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

В вашем втором примере, из-за формы распределения населения (с одной стороны, это слишком много перекос, читать комментарии от парня и Glen_b сильфона), даже образцы размером не даст вам хорошее приближение для распределения выборка означает использование CLT. $30$

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 30
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

Но с этим вторым населением, образцы, скажем, размера в порядке. $100$

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 100
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

— Zen
источник

3

Проблема не в дисперсии. Одним из способов получения строгого контроля является использование отношения третьего центрального момента к стандартному отклонению в кубе, как в теореме Берри-Эссеена.

— парень

Отлично. Добавлен. Tks.

— Дзен

1

Спасибо за быстрый, наглядный и отличный ответ с кодом. Я был очень удивлен, как быстро это было! Я не знал о соответствующем количестве образцов. Я думал о случае, когда количество выборок является фиксированным.

— JimSD

@ Гай, спасибо за это. Я не знал идею «отношения третьего центрального момента к стандартному отклонению в кубе в теореме Берри-Эссеена» . Я просто хочу рассмотреть случай, когда в дистрибутив входит одно большое число, например, выброс. И такой дистрибутив можно сослаться, как вы уже сказали, я полагаю. Если вы знаете какую-либо предыдущую работу, касающуюся такого рода распространения, дайте мне знать, спасибо.

— JimSD

2

ρ = E [| X - μ |^{3}]

$\rho=E[|X-\mu|^3]$

μ_{3} = E [(X - μ)^{3}]

$\mu_3=E[(X-\mu)^3]$

7

Я просто хотел бы объяснить, используя сложные функции генерации кумулянта , почему все продолжают обвинять это в искажении.

Давайте напишем случайную переменную, которую вы выбираете, как , где - среднее значение, а - стандартное отклонение, поэтому имеет среднее значение и дисперсию . Производящая кумулянт функция имеет вид . Здесь обозначает перекос ; мы могли бы написать это в терминах перекоса исходной переменной , а именно. . $\mu+\sigma Z$ $\mu$ $\sigma$ $Z$ $0$ $1$ $Z$ $-\frac{1}{2}t^2-\frac{i\gamma_1}{6}t^3+o(t^3)$ $\gamma_1$ $Z$ $\kappa_3$ $\mu+\sigma Z$ $\gamma_1=\sigma^{-3}\kappa_3$

Если мы разделим сумму выборок распределения на , результат будет иметь вид cgfЧтобы нормальное приближение действовало при достаточно большом чтобы график выглядел правильно, нам нужно достаточно большое . Этот расчет мотивирует . Два рассмотренных вами образца имеют очень разные значения . $n$ $Z$ $\sqrt{n}$

n (- \frac{1}{2} {(\frac{t}{\sqrt{n}})}^{2} - \frac{i γ_{1}}{6} {(\frac{t}{\sqrt{n}})}^{3}) + o (t^{3}) = - \frac{1}{2} t^{2} - \frac{i γ_{1}}{6 \sqrt{n}} t^{3} + o (t^{3}) .

$n\left(-\frac{1}{2}\left(\frac{t}{\sqrt{n}}\right)^2-\frac{i\gamma_1}{6}\left(\frac{t}{\sqrt{n}}\right)^3\right)+o(t^3)=-\frac{1}{2}t^2-\frac{i\gamma_1}{6\sqrt{n}}t^3+o(t^3).$

t

$t$

n

$n$

n \propto γ_{1}^{2}

$n\propto\gamma_1^2$

γ_{1}

$\gamma_1$

— JG
источник

-1

Короткий ответ: у вас недостаточно большой выборки, чтобы применить центральную предельную теорему.

— Фейнман
источник

1

То, что это не может быть действительным объяснением, очевидно из наблюдения, что CLT дает хорошее приближение для первого набора данных в вопросе, который одинаково мал.

— whuber

@whuber: Я думаю, вы говорите, что нормальное распределение дает достаточно хорошее приближение для выборки из пяти из первого набора. Поскольку существует только конечное число значений для сумм (13 возможных значений без замены и 21 возможное значение с заменой), аппроксимация не становится намного лучше при большом количестве выборок из пяти, и начальное приближение больше из-за начальный шаблон ...

— Генри

@whuber Поскольку распределение первого набора выглядит перекошенным влево, я ожидаю, что сумма пяти также будет перекошена влево, причем менее экстремально, чем я ожидаю, что сумма пяти из второго набора будет перекошена вправо. Чтобы уменьшить асимметрию, я бы подумал, что вам понадобится больший размер выборки

— Генри

1

@ Генри Спасибо за ваши комментарии. Я не делал замечаний об этих конкретных обстоятельствах, а только о логике этого ответа, в надежде, что он может быть объяснен дальше.

— whuber