Эмпирический CDF против CDF


21

Я узнаю об эмпирической функции кумулятивного распределения. Но я все еще не понимаю

  1. Почему это называется «Эмпирический»?

  2. Есть ли разница между Эмпирическим CDF и CDF?


2
Проверьте здесь stats.stackexchange.com/questions/222120/…
Тим

Существует простое, прямое, элегантное объяснение с точки зрения билетов в коробочных моделях : CDF описывает, что находится в оригинальной коробочке. ECDF - это то, что вы получаете, когда вы помещаете свой образец (который представляет собой набор заявок, взятых из оригинальной коробки: так называемые «эмпирические» данные) в пустую коробку.
whuber

Следует помнить, что ваше эмпирическое распределение обычно ограничено тем, как оно построено, а CDF может и не быть. Например, если вы строите эмпирический CDF из наблюдений переменной Пуассона, полученный ECDF будет ограничен самой высокой наблюдаемой частотой, в то время как истинный CDF не ограничен.
Аксакал

Ответы:


27

Пусть X - случайная величина.

  • Накопительная функция распределения F(x) дает P(Xx) .
  • Эмпирическая функция кумулятивного распределения G(x) дает P(Xx) на основе наблюдений в вашей выборке.

Различие заключается в том, какая мера вероятности используется. Для эмпирического CDF вы используете меру вероятности, определенную частотой в эмпирической выборке.

Простой пример (подбрасывание монеты):

Пусть X - случайная величина, обозначающая результат броска одной монеты, где X=1 обозначает головы, а X=0 обозначает хвосты.

CDF для честной монеты определяется как:

F(x)={0for x<012for 0x<11for 1x

Если бы вы перевернули 2 головы и 1 хвост, эмпирический CDF будет:

G(x)={0for x<023for 0x<11for 1x

Эмпирический CDF будет отражать , что в вашей выборке, 2/3 ваших перестроек были головами.

Другой пример ( F - CDF для нормального распределения):

Пусть X - нормально распределенная случайная величина со средним значением 0 и стандартным отклонением 1 .

CDF предоставляется:

F(x)=x12πex22

x1<x2<x3

G(y)={0for y<x113for x1y<x223for x2y<x31for x3y

При достаточном количестве розыгрышей IID (и соблюдении определенных условий регулярности) эмпирический CDF будет сходиться к базовому CDF популяции.


12

Есть ли разница между Эмпирическим CDF и CDF?

Да, они разные. Эмпирический cdf - это правильный cdf, но эмпирические cdf всегда будут дискретными, даже если они не взяты из дискретного распределения, в то время как cdf распределения может быть другим, помимо дискретного.

Если вы рассматриваете выборку так, как если бы она была совокупностью значений, каждая из которых одинаково вероятна (т. Е. Поместите вероятность 1 / n в каждое наблюдение), тогда cdf этого распределения будет ECDF данных.

Почему это называется «Эмпирический»?

Это оценка численности населения в формате cdf на основе выборки; в частности, если вы относитесь к пропорциям выборки при каждом отдельном значении данных и относитесь к нему как к вероятности в популяции, вы получаете ECDF.

Эмпирическое имеет значение что-то вроде «наблюдением, а не теорией», и это именно то, что оно означает в данном случае ... использование наблюдений для определения функции распределения.


10

Эмпирический CDF построен на основе фактического набора данных (на графике ниже я использовал 100 выборок из стандартного нормального распределения). CDF - это теоретическая конструкция - это то, что вы бы увидели, если бы могли брать бесконечно много сэмплов.

Эмпирический CDF обычно очень хорошо аппроксимирует CDF, особенно для больших выборок (на самом деле существуют теоремы о том, как быстро он сходится к CDF при увеличении размера выборки).

Эмпирический CDF против CDF


10

Эмпирический это то, что вы строите из данных и наблюдений. Например, предположим, что вы хотите знать о распределении роста людей в стране. Вы начинаете с измерения людей и получаете гистограмму, которая может быть приближена к распределению. Затем вы рассчитываете эмпирический CDF.

Если вы используете статистическое распределение (детерминированная формула, которая дает точно такой же результат с теми же параметрами), вы также можете рассчитать его CDF.

Вы можете сказать: «Рост людей в этой стране распределен аналогично нормальному распределению со средним 1,75 м и стандартным отклонением 0,1 м. Тогда вы можете использовать CDF ~N(μзнак равно1,75 м,σзнак равно0,1 м) вместо построенного CDF эмпирического распределения.


Используется ли доверительное измерение, которое выражает вероятность того, что CDF и Emperical CDF описывают одну и ту же популяцию в пределе всех экспериментальных выборок в мире? Например, это может иметь отношение к избирательным выборам. (хотя, может быть, и нет, поскольку вывод не является строго описываемым как функция ...)
BenPen

3

Согласно Dictionary.com , определения «эмпирические» включают в себя:

получены или руководствуются опытом или экспериментом.

Следовательно, Empirical CDF - это CDF, который вы получаете из ваших данных. Это контрастирует с теоретическим CDF (часто называемым просто «CDF»), который получается из статистической или вероятностной модели, такой как нормальное распределение.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.