Является ли распределение Коши «непредсказуемым»?


14

Является ли распределение Коши «непредсказуемым»?

Я пытался делать

cs <- function(n) {
  return(rcauchy(n,0,1))
}

в R для множества n значений и заметил, что они время от времени генерируют довольно непредсказуемые значения.

Сравните это, например, с

as <- function(n) {
  return(rnorm(n,0,1))
}

который всегда, кажется, дает «компактное» облако точек.

По этой картинке это должно выглядеть как нормальное распределение? Тем не менее, это может быть только для подмножества значений. Или, возможно, хитрость в том, что стандартные отклонения Коши (на рисунке ниже) сходятся гораздо медленнее (влево и вправо) и, следовательно, допускают более серьезные выбросы, хотя и с низкой вероятностью?

https://i.stack.imgur.com/zGTLU.png

Здесь, как нормальные rvs, так и cs - Коши rvs.

введите описание изображения здесь

Но в силу конечности выбросов возможно ли, что хвосты pdf Коши никогда не сходятся?


9
1. Ваш вопрос неопределенный / неясный, поэтому на него трудно ответить; Например, что означает «непредсказуемый» в вашем вопросе? что вы подразумеваете под "стандартными отклонениями Коши" и сходимостью ближе к концу? Кажется, вы нигде не рассчитываете стандартные отклонения. стандартные отклонения чего именно? 2. Многие посты на сайте обсуждают свойства Коши, которые могут помочь вам сфокусировать ваш вопрос. Также стоит проверить Википедию. 3. Я бы предложил избежать термина «колоколообразный»; обе плотности кажутся примерно в форме колокола; просто назовите их по именам.
Glen_b

4
Конечно, Коши очень тяжелый хвост.
Glen_b

1
Я опубликовал несколько фактов; надеюсь, это поможет вам понять, о чем вы хотите знать, чтобы вы могли уточнить свой вопрос.
Glen_b

1
|Икс|Икс

2
С нормальными возможны большие выбросы, но они невероятно редки . Плотность (и в верхнем хвосте, особенно релевантная для выбросов, по крайней мере, данного размера, функции выживания) для нормальных голов к 0 намного быстрее, чем делает Коши - но, тем не менее, обе плотности (и обе функции выживания) приблизиться к 0 и ни разу не достичь
Glen_b

Ответы:


39

Хотя ряд постов на сайте посвящены различным свойствам Коши, мне не удалось найти ту, которая действительно выложила их вместе. Надеюсь, это может быть хорошим местом для сбора. Я могу расширить это.

Тяжелые хвосты

В то время как Коши симметричен и имеет примерно колоколообразную форму, чем-то напоминает нормальное распределение, у него гораздо более тяжелые хвосты (и меньше «плеча»). Например, существует небольшая, но отчетливая вероятность того, что случайная величина Коши будет лежать на расстоянии более 1000 межквартильных диапазонов от медианы - примерно того же порядка, что и нормальная случайная переменная, составляющая не менее 2,67 межквартильных диапазонов от ее медианы.

отклонение

Дисперсия Коши бесконечна.

Изменить: JG говорит в комментариях, что это не определено. Если мы возьмем дисперсию как среднее от половины квадрата расстояния между парами значений - что идентично дисперсии, когда оба существуют, то она будет бесконечной. Однако по обычному определению JG верен. [Тем не менее, в отличие от средств выборки, которые в действительности не сходятся ни к чему, когда n становится большим, распределение дисперсий выборки продолжает увеличиваться в размере по мере увеличения размера выборки; масштаб увеличивается пропорционально n, или, эквивалентно, распределение логарифмической дисперсии растет линейно с размером выборки. Кажется продуктивным рассмотреть фактическую дисперсию, которая дает бесконечность, что-то нам говорит.]

Стандартные отклонения выборки, конечно, существуют, но чем больше выборка, тем больше они имеют тенденцию быть (например, стандартное стандартное отклонение выборки при n = 10 примерно в 3,67 раза превышает масштабный параметр (половину IQR), но при n = 100 это около 11,9).

Жадный

Распределение Коши даже не имеет конечного среднего; интеграл для среднего не сходится. В результате даже законы больших чисел не применяются - с ростом n выборочные средства не сходятся к некоторому фиксированному количеству (в действительности им нечего сходиться).

Фактически, распределение среднего значения выборки по распределению Коши совпадает с распределением одного наблюдения (!). Хвост настолько тяжелый, что добавление большего количества значений в сумму делает достаточно вероятным действительно экстремальное значение, чтобы просто компенсировать деление на больший знаменатель при получении среднего значения.

Предсказуемость

Вы, конечно, можете получить совершенно разумные интервалы прогнозирования для наблюдений из распределения Коши; Существуют простые, довольно эффективные оценщики, которые хорошо работают для оценки местоположения и масштаба, и могут быть построены приблизительные интервалы прогнозирования - поэтому в этом смысле, по крайней мере, переменные Коши «предсказуемы». Однако хвост простирается очень далеко, поэтому, если вы хотите интервал с высокой вероятностью, он может быть довольно широким.

Если вы пытаетесь предсказать центр распределения (например, в модели регрессионного типа), это в некотором смысле может быть относительно легко предсказать; Коши довольно пиковый (для типичного измерения масштаба есть большое распределение "близко" к центру), поэтому центр может быть относительно хорошо оценен, если у вас есть соответствующая оценка.

Вот пример:

Я сгенерировал данные из линейной зависимости со стандартными ошибками Коши (100 наблюдений, пересечение = 3, наклон = 1,5) и оцененными линиями регрессии тремя методами, которые достаточно устойчивы к y-выбросам: групповая линия Тьюки 3 (красная), регрессия Тейла (темно-зеленый) и L1-регрессия (синий). Ни один из них не особенно эффективен в Коши - хотя все они могут стать отличной отправной точкой для более эффективного подхода.

Тем не менее, три из них почти совпадают по сравнению с шумом данных и лежат очень близко к центру, где данные бегут; в этом смысле Коши явно «предсказуем».

Медиана абсолютных невязок только немного больше 1 для любой из линий (большинство данных лежат довольно близко к оценочной линии); и в этом смысле Коши «предсказуем».

линейная зависимость с ошибками Коши и тремя подогнанными линиями регрессии

Для сюжета слева есть большой выброс. Чтобы лучше видеть данные, я сузил шкалу по оси Y внизу справа.


1
Тяжелые хвосты и дисперсия в бесконечности связаны, верно?
Мававиль

Конечно. Неопределенное среднее также связано с тяжелыми хвостами.
Glen_b

«Существуют простые, довольно эффективные оценщики, которые хорошо подходят для оценки местоположения и масштаба, и можно построить приблизительные интервалы прогнозирования» - можете ли вы предоставить ссылки?
Карлос Синелли

Комментарии не для расширенного обсуждения; этот разговор был перенесен в чат .
gung - Восстановить Монику

@Carlos Там есть две разные проблемы - (i) простые, довольно эффективные оценки для определения местоположения (например, подходящего усеченного среднего) и масштаба в Коши, и (ii) методы для построения интервала прогнозирования, который будет работать для Коши. Я думаю, что первый уже описан на сайте, а второй заслуживает отдельного вопроса.
Glen_b

1

μσNμ±σμ±636,62σ

σ

Распределение Коши выглядит довольно немного в природе, особенно там, где у вас есть некоторая форма роста. Также кажется, что вещи вращаются, например, камни катятся по холмам. Вы найдете это в качестве основного распределения уродливой смеси распределений в доходах фондового рынка, но не в доходах для вещей как антиквариат, проданный на аукционах. Возврат по антиквариату также относится к распределению без среднего или дисперсии, но не к распределению Коши. Различия создаются различиями в правилах аукциона. Если вы измените правила NYSE, то распределение Коши исчезнет, ​​и появится другое.

Чтобы понять, почему он обычно присутствует, представьте, что вы были участником очень большого числа потенциальных претендентов. Поскольку акции продаются на двойном аукционе, проклятие победителя не применяется. В равновесии рациональное поведение заключается в предложении ожидаемой цены. Ожидание является формой среднего. Распределение средних оценок будет сходиться к норме, поскольку размер выборки становится бесконечным.

рTзнак равнопT+1пT

Это делает фондовый рынок очень волатильным, если считать, что фондовый рынок должен иметь нормальное или логарифмическое распределение, но не неожиданно волатильным, если вы ожидаете тяжелых хвостов.

Я построил как байесовское, так и частотное предиктивное распределение для распределения Коши, и, учитывая их предположения, они работают хорошо. Байесовское предсказание минимизирует расхождение Кульбака-Лейблера, а это означает, что оно максимально близко к природе в прогнозе для данного набора данных. Предсказание Frequentist минимизирует среднюю расходимость Кульбака-Лейблера по многим независимым предсказаниям из многих независимых выборок. Это не обязательно хорошо работает, однако, для любого образца, как и следовало ожидать со средним охватом. Хвосты сходятся, но они сходятся медленно.

Многомерный Коши обладает еще более огорчительными свойствами. Например, хотя он, очевидно, не может коваризоваться, поскольку нет среднего значения, он не имеет ничего общего с ковариационной матрицей. Ошибки Коши всегда сферические, если в системе больше ничего не происходит. Кроме того, пока ничего не коваризует, ничто не является независимым. Чтобы понять, насколько это важно в практическом смысле, представьте две страны, которые растут и торгуют друг с другом. Ошибки в одной не зависят от ошибок в другой. Мои ошибки влияют на ваши ошибки. Если одна страна захвачена сумасшедшим, ошибки этого сумасшедшего чувствуются повсюду. С другой стороны, поскольку эффекты не являются линейными, как можно было бы ожидать с ковариационной матрицей, другие страны могут разорвать отношения, чтобы минимизировать воздействие.

Это также то, что делает торговую войну Трампа настолько опасной. Вторая по величине экономика в мире после Европейского союза объявила экономическую войну через торговлю против любой другой экономики и финансирует эту войну, заимствуя деньги, чтобы бороться с ней от стран, против которых она объявила войну. Если эти зависимости вынудить раскрутиться, это будет ужасно, так как ни у кого нет живой памяти. У нас не было подобной проблемы со времен администрации Джексона, когда Банк Англии ввел эмбарго на торговлю в Атлантике.

Распределение Коши является захватывающим, потому что оно появляется в экспоненциальных и S-образных растущих системах. Они вводят людей в заблуждение, потому что их повседневная жизнь наполнена плотностями, которые имеют среднее значение и обычно имеют отклонения. Это делает принятие решений очень трудным, потому что неправильные уроки извлечены.


Мне нравится смелый способ, которым математические свойства отображаются в реальном поведении в этом ответе. Но не следует ли вам упомянуть, что у Усеченного Коши (с обеих сторон) все моменты конечны?
Алекос Пападопулос

Это только усечено слева. Номинальное планетарное бюджетное ограничение является стохастическим справа, и поскольку денежные системы не являются системами сохранения, они бесконечны справа.
Дейв Харрис
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.