Почему в моей симуляции нарушается центральная предельная теорема?


21

Допустим, у меня есть следующие цифры:

4,3,5,6,5,3,4,2,5,4,3,6,5

Я выбираю некоторые из них, скажем, 5 из них, и вычисляю сумму 5 образцов. Затем я повторяю это снова и снова, чтобы получить много сумм, и я отображаю значения сумм в гистограмме, которая будет гауссовой из-за центральной предельной теоремы.

Но когда они следуют за числами, я просто заменил 4 большим числом:

4,3,5,6,5,3,10000000,2,5,4,3,6,5

Суммы выборки из 5 выборок из них никогда не становятся гауссовскими в гистограмме, но больше похожи на расщепление и становятся двумя гауссианами. Почему это?


1
Это не будет сделано, если вы увеличите его до значения, превышающего n = 30 или около того ... только мое подозрение и более краткая версия / повторение принятого ответа ниже.
oemb1905

@JimSD CLT - это асимптотический результат (то есть о распределении стандартизированных средних значений выборки или сумм в пределе при изменении размера выборки до бесконечности). это не . То, на что вы смотрите (подход к нормальности в конечных выборках), является не просто результатом CLT, а связанным результатом. n n=5n
Glen_b

3
@ oemb1905 n = 30 недостаточно для того, чтобы предположить подобную асимметрию. В зависимости от того, насколько редко это загрязнение со значением, например, может занять n = 60 или n = 100 или даже больше, прежде чем нормаль будет выглядеть как разумное приближение. Если загрязнение составляет около 7% (как в вопросе), n = 120 все еще несколько 107
искажено


Подумайте, что значения в таких интервалах, как (1 100 000, 1 900 000), никогда не будут достигнуты. Но если вы внесете средства из приличных сумм в эти суммы, это сработает!
Дэвид

Ответы:


18

Напомним точно, что говорит центральная предельная теорема.

Если являются независимыми и одинаково распределенными случайными величинами с (общим) средним и стандартным отклонением , то сходится по распределению к стандартному нормальному распределению (*).X1,X2,,XkμσX1+X2++XkkσkN(0,1)

Это часто используется в «неформальной» форме:

Если являются независимыми и одинаково распределенными случайными величинами с (общим) средним значением и стандартным отклонением , то сходится "в распределении" к стандартному нормальному распределению .X1,X2,,XkμσX1+X2++XkN(kμ,kσ)

Нет хорошего способа сделать эту форму CLT математически точной, так как «предельное» распределение меняется, но это полезно на практике.

Когда у нас есть статический список чисел, таких как

4,3,5,6,5,3,10000000,2,5,4,3,6,5

и мы производим выборку, выбирая случайное число из этого списка, чтобы применить центральную предельную теорему, мы должны быть уверены, что наша схема выборки удовлетворяет этим двум условиям независимости и одинаково распределена.

  • Идентично распределенный не проблема: каждый номер в списке с равной вероятностью будет выбран.
  • Независимость более тонкая и зависит от нашей схемы отбора проб. Если мы производим забор без замены , тогда мы нарушаем независимость. Только когда мы проводим выборку с заменой, применима центральная предельная теорема.

Итак, если мы используем заменяющую выборку в вашей схеме, тогда мы сможем применить центральную предельную теорему. В то же время, вы правы, если наша выборка имеет размер 5, тогда мы увидим очень разное поведение в зависимости от того, выбрано или не выбрано очень большое число в нашей выборке.

Так в чем же проблема? Что ж, скорость сходимости к нормальному распределению очень зависит от формы популяции, из которой мы отбираем образцы, в частности, если наша популяция очень асимметрична, мы ожидаем, что для ее сближения потребуется много времени. Это имеет место в нашем примере, поэтому мы не должны ожидать, что выборка размера 5 достаточна, чтобы показать нормальную структуру.

Три нормальных распределения

Выше я повторил ваш эксперимент (с заменой выборки) для выборок размером 5, 100 и 1000. Вы можете видеть, что нормальная структура возникает для очень больших выборок.

(*) Обратите внимание, что здесь необходимы некоторые технические условия, такие как конечное среднее и дисперсия. Они легко подтверждаются в нашей выборке из списка примеров.


Спасибо за очень быстрый и идеальный ответ. Идея CLT, замена, необходимость большего количества выборок, когда распределение данных искажено, ... Это очень ясно сейчас. Мое первоначальное намерение вопроса, как вы упомянули, это случай, когда одно большое число включено без замены, а количество выборок является фиксированным. Он ведет себя очень по-разному, и поэтому мы должны рассмотреть «условный» CLT для случая, когда большое число выбирается, а случай не выбирается. Интересно, есть ли какие-либо исследования или предварительная работа для этого ... Но все равно спасибо.
JimSD

не знаю, применимо ли здесь, но теорема о конвергенции CLT регулируется асимметрией en.wikipedia.org/wiki/Berry%E2%80%93Esseen_theorem
seanv507

Я немного сбит с толку определением CLT @ MatthewDrury. Я думаю, что сходится к константе LLN, а не к нормальному распределению. Xkk
JTH

1
@ seanv507 абсолютный третий момент, а не асимметрия; эти два связаны, но отметим, что для симметричного распределения с конечным третьим моментом оценка Берри-Эссеена нане равно 0, потому что - это не асимметрия|Fn(x)Φ(x)|ρ/σ3
Glen_b

1
@Glen_b Да, я был немного неформален (что, возможно, не следовало), но я могу это исправить сегодня днем, так как это привело к некоторой путанице.
Мэтью Друри

12

В общем, размер каждой выборки должен быть больше чтобы приближение CLT было хорошим. Эмпирическое правило - это образец размером или более. Но, с населением вашего первого примера, в порядке.5305

pop <- c(4, 3, 5, 6, 5, 3, 4, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 5
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

введите описание изображения здесь

В вашем втором примере, из-за формы распределения населения (с одной стороны, это слишком много перекос, читать комментарии от парня и Glen_b сильфона), даже образцы размером не даст вам хорошее приближение для распределения выборка означает использование CLT.30

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 30
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

введите описание изображения здесь

Но с этим вторым населением, образцы, скажем, размера в порядке.100

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 100
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

введите описание изображения здесь


3
Проблема не в дисперсии. Одним из способов получения строгого контроля является использование отношения третьего центрального момента к стандартному отклонению в кубе, как в теореме Берри-Эссеена.
парень

Отлично. Добавлен. Tks.
Дзен

1
Спасибо за быстрый, наглядный и отличный ответ с кодом. Я был очень удивлен, как быстро это было! Я не знал о соответствующем количестве образцов. Я думал о случае, когда количество выборок является фиксированным.
JimSD

@ Гай, спасибо за это. Я не знал идею «отношения третьего центрального момента к стандартному отклонению в кубе в теореме Берри-Эссеена» . Я просто хочу рассмотреть случай, когда в дистрибутив входит одно большое число, например, выброс. И такой дистрибутив можно сослаться, как вы уже сказали, я полагаю. Если вы знаете какую-либо предыдущую работу, касающуюся такого рода распространения, дайте мне знать, спасибо.
JimSD

2
ρ=E[|Xμ|3]μ3=E[(Xμ)3]

7

Я просто хотел бы объяснить, используя сложные функции генерации кумулянта , почему все продолжают обвинять это в искажении.

Давайте напишем случайную переменную, которую вы выбираете, как , где - среднее значение, а - стандартное отклонение, поэтому имеет среднее значение и дисперсию . Производящая кумулянт функция имеет вид . Здесь обозначает перекос ; мы могли бы написать это в терминах перекоса исходной переменной , а именно. .μ+σZμσZ01Z12t2iγ16t3+o(t3)γ1Zκ3μ+σZγ1=σ3κ3

Если мы разделим сумму выборок распределения на , результат будет иметь вид cgfЧтобы нормальное приближение действовало при достаточно большом чтобы график выглядел правильно, нам нужно достаточно большое . Этот расчет мотивирует . Два рассмотренных вами образца имеют очень разные значения .nZn

n(12(tn)2iγ16(tn)3)+o(t3)=12t2iγ16nt3+o(t3).
tnnγ12γ1


-1

Короткий ответ: у вас недостаточно большой выборки, чтобы применить центральную предельную теорему.


1
То, что это не может быть действительным объяснением, очевидно из наблюдения, что CLT дает хорошее приближение для первого набора данных в вопросе, который одинаково мал.
whuber

@whuber: Я думаю, вы говорите, что нормальное распределение дает достаточно хорошее приближение для выборки из пяти из первого набора. Поскольку существует только конечное число значений для сумм (13 возможных значений без замены и 21 возможное значение с заменой), аппроксимация не становится намного лучше при большом количестве выборок из пяти, и начальное приближение больше из-за начальный шаблон ...
Генри

@whuber Поскольку распределение первого набора выглядит перекошенным влево, я ожидаю, что сумма пяти также будет перекошена влево, причем менее экстремально, чем я ожидаю, что сумма пяти из второго набора будет перекошена вправо. Чтобы уменьшить асимметрию, я бы подумал, что вам понадобится больший размер выборки
Генри

1
@ Генри Спасибо за ваши комментарии. Я не делал замечаний об этих конкретных обстоятельствах, а только о логике этого ответа, в надежде, что он может быть объяснен дальше.
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.