Я заранее прошу прощения за длину этого поста: с некоторым трепетом я вообще обнародовал его, потому что на его прочтение уходит некоторое время и внимание, и, несомненно, есть типографские ошибки и пояснительные ошибки. Но здесь для тех, кто интересуется увлекательной темой, предлагается в надежде, что она побудит вас определить одну или несколько из множества частей CLT для дальнейшей проработки собственных ответов.
Большинство попыток «объяснить» CLT являются иллюстрациями или просто заявлениями, которые утверждают, что это правда. Действительно проницательное, правильное объяснение должно было бы объяснить очень много вещей.
Прежде чем смотреть на это дальше, давайте проясним, что говорит CLT. Как вы все знаете, существуют версии, которые различаются по своей общности. Общий контекст - это последовательность случайных величин, которые представляют собой определенные виды функций в общем вероятностном пространстве. Для интуитивных объяснений, которые держатся строго, я считаю полезным думать о пространстве вероятностей как о коробке с различимыми объектами. Неважно, что это за объекты, но я назову их «билетами». Мы делаем одно «наблюдение» за коробкой, тщательно перепутывая билеты и вынимая их; этот билет составляет наблюдение. После записи для последующего анализа мы возвращаем билет в коробку, чтобы его содержимое не изменилось. «Случайная величина» - это число, написанное на каждом билете.
В 1733 году Авраам де Моивр рассмотрел случай с одной коробкой, в которой числа на билетах являются только нулями и единицами («Испытания Бернулли»), причем присутствуют некоторые из каждого числа. Он вообразил, что делает физически независимых наблюдений, получая последовательность значений , все из которых равны нулю или единице. Сумма этих значений, , является случайным , так как члены в сумме есть. Поэтому, если бы мы могли повторить эту процедуру много раз, различные суммы (целые числа в диапазоне от до ) появились бы с различными частотами - пропорциями от общего количества. (См. Гистограммы ниже.)x 1 , x 2 , … , x n y n = x 1 + x 2 + … + x n 0 nnx1,x2,…,xnyn=x1+x2+…+xn0n
Теперь можно было бы ожидать - и это правда - что при очень больших значениях все частоты будут довольно малы. Если бы мы были настолько смелыми (или глупыми), чтобы попытаться «взять предел» или «позволить перейти к », мы бы правильно сделали вывод, что все частоты уменьшаются до . Но если мы просто рисуем гистограмму частот, не обращая никакого внимания на то, как помечены ее оси, мы видим, что все гистограммы для больших начинают выглядеть одинаково: в некотором смысле эти гистограммы приближаются к пределу, даже если частоты сами все сводятся к нулю.n ∞ 0 nnn∞0n
Эти гистограммы отображают результаты повторения процедуры получения много раз. - это «количество испытаний» в заголовках. пynn
Проницательность здесь состоит в том, чтобы сначала нарисовать гистограмму, а затем обозначить ее оси . С большимn гистограмма охватывает большой диапазон значений, сосредоточенных вокруг (по горизонтальной оси) и исчезающе малый интервал значений (по вертикальной оси), поскольку отдельные частоты растут довольно маленькими. Для встраивания этой кривой в область построения графика потребовалось смещение и изменение масштаба гистограммы. Математическое описание этого состоит в том, что для каждого n мы можем выбрать некоторое центральное значение m n (не обязательно уникальное!) Для позиционирования гистограммы и некоторого значения шкалы s nn/2nmnsn(не обязательно уникальный!), чтобы он соответствовал осям. Это можно сделать математически, изменив на z n = ( y n - m n ) / s n .ynzn=(yn−mn)/sn
Помните, что гистограмма представляет частоты по областям между ней и горизонтальной осью. Следовательно, возможная стабильность этих гистограмм для больших значений должна быть указана в терминах площади. n Итак, выберите любой интервал значений, который вам нравится, скажем, от до b > a и, по мере увеличения n , отследите область части гистограммы z n, которая горизонтально охватывает интервал ( a , b ] . CLT утверждает несколько вещи:ab>anzn(a,b]
Независимо от того, что такое и b ,ab если мы выберем последовательности и s n соответствующим образом (таким образом, что вообще не зависит от a или b ), эта область действительно приближается к пределу, так как n становится большим.mnsnabn
Последовательности и s n могут быть выбраны таким образом, который зависит только от n , среднего значения в поле и некоторой меры разброса этих значений, но не от чего-либо другого, так что независимо от того, что находится в поле, предел всегда одинаков. (Это свойство универсальности удивительно.)mnsnn
В частности, что ограничение область представляет собой площадь под кривой междуaиb: это формула этой универсальной предельной гистограммы.y=exp(−z2/2)/2π−−√ab
Первое обобщение CLT добавляет,
Когда в рамке могут содержаться числа в дополнение к нулям и единицам, имеют место точно такие же выводы (при условии, что пропорции чрезвычайно больших или малых чисел в ячейке не являются «слишком большими», критерий, который имеет точное и простое количественное выражение) ,
Следующее, и, возможно, самое удивительное обобщение заменяет эту единственную коробку билетов заказанным бесконечно длинным набором коробок с билетами. Каждая коробка может иметь разные номера на своих билетах в разных пропорциях. Наблюдение выполняется путем извлечения билета из первого окна, x 2 - из второго окна и так далее.x1x2
Точно такие же выводы имеют место при условии, что содержимое полей «не слишком отличается» (есть несколько точных, но разных количественных характеристик того, что должно означать «не слишком другое»; они допускают удивительную величину широты).
Эти пять утверждений, как минимум, нуждаются в объяснении. Есть еще кое-что. Несколько интригующих аспектов установки подразумеваются во всех утверждениях. Например,
Что особенного в сумме ? Почему у нас нет центральных предельных теорем для других математических комбинаций чисел, таких как их произведение или их максимум? (Оказывается, мы это делаем, но они не настолько общие и не всегда имеют такой простой и понятный вывод, если их нельзя свести к CLT.) Последовательности и s n не уникальны, но они почти уникальны в том смысле, что в конечном итоге они должны аппроксимировать ожидание суммы n билетов и стандартное отклонение суммы соответственно (что в первых двух утверждениях CLT равно √mnsnn раз стандартное отклонение коробки). n−−√
Стандартное отклонение является одной мерой разброса ценностей, но оно ни в коем случае не единственное и не самое «естественное», как в историческом, так и во многих случаях. (Многие люди выбирают что-то вроде медианного абсолютного отклонения от медианы , например.)
Почему SD появляется таким существенным образом?
Рассмотрим формулу для предельной гистограммы: кто бы мог ожидать, что она примет такую форму? В нем говорится, что логарифм плотности вероятности является квадратичной функцией. Почему? Есть ли какое-то интуитивное или ясное, убедительное объяснение этому?
Признаюсь, я не могу достичь конечной цели предоставления ответов, которые достаточно просты, чтобы соответствовать сложным критериям Srikant в отношении интуитивности и простоты, но я набросал этот фон в надежде, что другие будут вдохновлены, чтобы заполнить некоторые из многочисленных пробелов. Я думаю, что хорошая демонстрация в конечном итоге должна опираться на элементарный анализ того, как значения между и β n = b s n + m n могут возникать при формировании суммы x 1 + x 2 + … + х нαn=asn+mnβn=bsn+mnx1+x2+…+xn, Возвращаясь к версии CLT для одного бокса, случай симметричного распределения проще в обращении: его медиана равна среднему значению, так что есть вероятность 50%, что будет меньше среднего значения коробки, и шанс 50%. что х я будет больше, чем его среднее значение. Более того, когда n достаточно велико, положительные отклонения от среднего значения должны компенсировать отрицательные отклонения в среднем. (Это требует некоторого тщательного обоснования, а не только размахивания руками.) Таким образом, мы должны в первую очередь заботиться о подсчете количества положительных и отрицательных отклонений и иметь лишь второстепенную заботу об их размерах.xixin (Из всего, что я написал здесь, это может быть наиболее полезным для предоставления некоторой интуиции о том, почему CLT работает. Действительно, технические предположения, необходимые для того, чтобы сделать обобщения CLT истинными по существу, являются различными способами исключить возможность того, что редкие огромные отклонения нарушат баланс настолько, чтобы предотвратить возникновение предельной гистограммы.)
В любом случае это показывает, в какой-то степени, почему первое обобщение CLT на самом деле не раскрывает ничего, чего не было в первоначальной пробной версии Бернулли де Мойвра.
На данный момент кажется, что для этого нет ничего, кроме небольшой математики: нам нужно посчитать количество различных способов, которыми число положительных отклонений от среднего может отличаться от количества отрицательных отклонений на любое заранее определенное значение где, очевидно, k является одним из - n , - n + 2 , … , n - 2 , n . Но так как исчезающие мелкие ошибки исчезнут в пределе, нам не нужно считать точно; нам нужно только приблизительное количество. Для этого достаточно знать, чтоkk−n,−n+2,…,n−2,n
The number of ways to obtain k positive and n−k negative values out of n
equals n−k+1k
times the number of ways to get k−1 positive and n−k+1 negative values.
(Это совершенно элементарный результат, поэтому я не стану записывать обоснование.) Теперь мы приближаемся к оптовой цене. Максимальная частота возникает, когда максимально близко к n / 2, насколько это возможно (также элементарно). Давайте напишем m = n / 2 . Затем, относительно максимальной частоты, частота m + j + 1 положительных отклонений ( j ≥ 0 ) оценивается произведениемkn/2m=n/2m+j+1j≥0
m+1m+1mm+2⋯m−j+1m+j+1
=1−1/(m+1)1+1/(m+1)1−2/(m+1)1+2/(m+1)⋯1−j/(m+1)1+j/(m+1).
За 135 лет до того, как де Моивр писал, Джон Нейпир изобрел логарифмы, чтобы упростить умножение, поэтому давайте воспользуемся этим. Используя приближение
log(1−x1+x)∼−2x,
мы находим, что журнал относительной частоты составляет примерно
−2/(m+1)−4/(m+1)−⋯−2j/(m+1)=−j(j+1)m+1∼−j2m.
Поскольку накопленная ошибка пропорциональна , это должно работать хорошо, если j 4 мало по отношению к м 3 . Это охватывает больший диапазон значений j, чем необходимо. (Достаточно, чтобы приближение работало для j только порядка √j4/m3j4m3jj , асимптотически намного меньшечемм 3 / 4 )m−−√m3/4
Очевидно, что гораздо больший анализ такого рода должен быть представлен для обоснования других утверждений в CLT, но у меня заканчиваются время, пространство и энергия, и я, вероятно, потерял 90% людей, которые все равно начали читать это. Это простое приближение, тем не менее, наводит на мысль, что де Муавр изначально мог предположить, что существует универсальное предельное распределение, что его логарифм является квадратичной функцией, и что надлежащий масштабный коэффициент должен быть пропорционален √sn (потому чтоj2/m=2j2/n=2(j/ √n−−√). j2/m=2j2/n=2(j/n−−√)2 Трудно представить, как можно объяснить эти важные количественные отношения, не прибегая к какой-либо математической информации и рассуждениям; что-то меньшее оставит точную форму ограничивающей кривой полной загадкой.