Основная идея заключается в том, что выборочное распределение медианы легко выразить в терминах функции распределения, но сложнее выразить в терминах медианного значения. Как только мы поймем, как функция распределения может повторно выражать значения как вероятности и обратно, легко получить точное выборочное распределение медианы. Небольшой анализ поведения функции распределения вблизи ее медианы необходим, чтобы показать, что это асимптотически нормально.
(Тот же самый анализ работает для выборочного распределения любого квантиля, а не только медианы.)
Я не буду пытаться быть строгим в этом изложении, но я делаю это шаг за шагом, которые легко обоснованы строгим образом, если у вас есть желание сделать это.
Интуиция
Это снимки коробки, содержащей 70 атомов горячего атомарного газа:
На каждом изображении я обнаружил местоположение, показанное красной вертикальной линией, которое разделяет атомы на две равные группы между левой (нарисованные как черные точки) и правой (белые точки). Это медиана позиций: 35 атомов лежат слева и 35 справа. Медианы меняются, потому что атомы движутся случайным образом вокруг коробки.
Мы заинтересованы в распределении этой средней позиции. На такой вопрос отвечает обратная процедура: сначала нарисуем где-нибудь вертикальную линию, скажем, в точке . Какова вероятность того, что половина атомов окажется слева от x, а половина справа? Атомы слева по отдельности имели шансы х оказаться слева. Атомы справа по отдельности имели шансы 1 - x оказаться справа. Предполагая, что их позиции статистически независимы, шансы умножаются, давая х 35 ( 1 - х ) 35xxx1−xx35(1−x)35для шанса этой конкретной конфигурации. Эквивалентная конфигурация может быть достигнута для другого разделения атомов на две 35- элементные части. Добавление этих чисел для всех возможных таких разбиений дает шанс7035
Pr(x is a median)=Cxn/2(1−x)n/2
где - общее количество атомов, а пропорционально количеству расщеплений атомов на две равные подгруппы.C nnCn
Эта формула определяет распределение медианы как бета распределение(n/2+1,n/2+1) .
Теперь рассмотрим коробку с более сложной формой:
Еще раз медианы меняются. Поскольку ящик расположен низко возле центра, его объем там невелик: небольшое изменение объема, занимаемого левой половиной атомов (опять же черными) - или, мы могли бы также признать, область слева , как показано на этих фигурах - соответствует сравнительно большому изменению в горизонтальном положении медианы. Фактически, поскольку область, представленная небольшим горизонтальным сечением коробки, пропорциональна высоте , изменения медианы делятся на высоту коробки. Это заставляет медиану быть более изменчивой для этого бокса, чем для квадратного прямоугольника, потому что этот намного ниже в середине.
Короче говоря, когда мы измеряем положение медианы с точки зрения площади (слева и справа), исходный анализ (для квадратной рамки) остается неизменным. Форма прямоугольника усложняет распределение, только если мы настаиваем на измерении медианы с точки зрения его горизонтального положения. Когда мы делаем это, отношения между областью и позиционным представлением обратно пропорциональны высоте блока.
Из этих картинок можно многому научиться. Ясно, что когда в (одном) ящике находится мало атомов, существует большая вероятность того, что половина из них может случайно оказаться кластеризованной далеко в любую сторону. По мере роста числа атомов потенциал такого экстремального дисбаланса уменьшается. Чтобы отследить это, я взял «фильмы» - длинную серию из 5000 кадров - для изогнутой коробки, заполненной , затем , затем и, наконец, атомами, и отметил медианы. Вот гистограммы средних позиций:15 75 37531575375
Ясно, что для достаточно большого числа атомов распределение их срединного положения начинает выглядеть колоколообразным и сужается: это похоже на результат центральной предельной теоремы, не так ли?
Количественные результаты
«Коробка», конечно, изображает плотность вероятности некоторого распределения: ее верх - график функции плотности (PDF). Таким образом, области представляют вероятности. Размещение точек случайным образом и независимо внутри блока и наблюдение за их горизонтальным положением - это один из способов получить выборку из распределения. (Это идея выборки отклонения. )n
Следующая фигура соединяет эти идеи.
Это выглядит сложно, но это действительно довольно просто. Здесь четыре сюжета:
Верхний график показывает PDF распределения вместе с одной случайной выборкой размером . Значения, превышающие медиану, показаны в виде белых точек; значения меньше, чем медиана в виде черных точек. Ему не нужен вертикальный масштаб, потому что мы знаем, что общая площадь равна единице.n
Средний график - это кумулятивная функция распределения для того же распределения: она использует высоту для обозначения вероятности. Он разделяет свою горизонтальную ось с первым сюжетом. Его вертикальная ось должна идти от до потому что она представляет вероятности.101
Левый график предназначен для чтения вбок: это PDF дистрибутива Beta . Он показывает, как медиана в квадрате будет меняться, когда медиана измеряется в терминах областей слева и справа от середины (а не измеряется по горизонтальному положению). Я нарисовал случайных точек из этого PDF, как показано, и соединил их горизонтальными пунктирными линиями с соответствующими местоположениями на оригинальном CDF: это то, как объемы (измеренные слева) преобразуются в позиции (измеренные сверху, по центру). и нижняя графика). Одна из этих точек фактически соответствует медиане, показанной на верхнем графике; Я нарисовал сплошную вертикальную линию, чтобы показать это.16(n/2+1,n/2+1)16
Нижний график представляет собой плотность выборки медианы, измеренную по ее горизонтальному положению. Получается путем преобразования области (на левом графике) в позицию. Формула преобразования дается обратным к исходному CDF: это просто определение обратного CDF! (Другими словами, CDF преобразует положение в область слева; обратный CDF преобразует обратно из области в положение.) Я построил вертикальные пунктирные линии, показывающие, как случайные точки на левом графике преобразуются в случайные точки на нижнем графике. , Этот процесс чтения поперек и затем вниз говорит нам, как перейти от области к позиции.
Пусть - CDF исходного распределения (средний график), а - CDF бета-распределения. Чтобы найти вероятность того, что медиана лежит слева от некоторой позиции , сначала используйте чтобы получить область слева от в поле: это сам . Распределение бета слева говорит нам о вероятности того, что половина атомов будет лежать в этом объеме, давая : это CDF медианного положения . Чтобы найти его PDF (как показано на нижнем графике), возьмите производную:FGxFxF(x)G(F(x))
ddxG(F(x))=G′(F(x))F′(x)=g(F(x))f(x)
где - PDF (верхний график), а - бета-PDF (левый график).fg
Это точная формула для распределения медианы для любого непрерывного распределения. (С некоторой осторожностью при интерпретации он может применяться к любому распределению, независимо от того, является ли оно непрерывным или нет.)
Асимптотические результаты
Когда очень велико и не имеет скачка в своем среднем, образец медиана должна изменяться близко вокруг истинного срединных распределения. Кроме того, предполагая, что PDF является непрерывным вблизи , в предыдущей формуле не сильно изменится от его значения в заданного Более того, также не сильно изменится от его значения: до первого порядка,nFμfμ f(x)μ,f(μ).F
F(x)=F(μ+(x−μ))≈F(μ)+F′(μ)(x−μ)=1/2+f(μ)(x−μ).
Таким образом, с постоянно улучшающимся приближением, когда становится большим,n
g(F(x))f(x)≈g(1/2+f(μ)(x−μ))f(μ).
Это всего лишь изменение местоположения и масштаба распределения бета-версий. Масштабирование с помощью разделит его дисперсию на (что лучше было бы отличным от нуля!). Кстати, дисперсия бета очень близка к .f(μ)f(μ)2(n/2+1,n/2+1)n/4
Этот анализ можно рассматривать как применение метода Дельта .
Наконец, бета является приблизительно нормальной для больших . Есть много способов увидеть это; возможно, самое простое - взглянуть на логарифм его PDF около :(n/2+1,n/2+1)n1/2
log(C(1/2+x)n/2(1/2−x)n/2)=n2log(1−4x2)+C′=C′−2nx2+O(x4).
(Константы и просто нормализуют общую площадь до единицы.) Таким образом, через третий порядок по , это то же самое, что и журнал нормального PDF с дисперсией (Этот аргумент сделан строгим с помощью использования характерных или кумулянт-генерирующих функций вместо журнала PDF.)CC′x,1/(4n).
В целом, мы заключаем, что
Распределение медианы выборки имеет дисперсию примерно ,1/(4nf(μ)2)
и это примерно нормально для больших ,n
все при условии, что PDF непрерывен и отличен от нуля при медианеfμ.