Реальные примеры распределений с отрицательной асимметрией


21

Вдохновленный « реальными примерами общих распределений », интересно , что педагогические примеры люди используют , чтобы продемонстрировать отрицательную асимметрию? Есть много «канонических» примеров симметричных или нормальных распределений, используемых в обучении - даже если такие, как рост и вес, не выдерживают более тщательного биологического исследования! Кровяное давление может быть ближе к норме. Мне нравятся ошибки астрономических измерений - исторический интерес, они интуитивно не более склонны лежать в одном направлении, чем в другом, с небольшими ошибками, скорее, чем большими.

Типичные педагогические примеры положительной асимметрии включают доходы людей; пробег на подержанные автомобили для продажи; время реакции в психологическом эксперименте; цены на жилье; количество страховых случаев от страхового клиента; количество детей в семье. Их физическая разумность часто обусловлена ​​тем, что они ограничены снизу (обычно нулем), при этом низкие значения являются правдоподобными, даже общеизвестными, но очень большие (иногда на порядок выше) значения общеизвестны.

Что касается негативных искажений, мне труднее привести однозначные и яркие примеры, которые молодежная аудитория (старшеклассники) может понять интуитивно, возможно, потому что у меньшего количества реальных распределений есть четкая верхняя граница. Примером безвкусицы, которому меня учили в школе, было «количество пальцев». У большинства людей есть десять, но некоторые теряют один или более в результате несчастных случаев. В результате получилось: «У 99% людей количество пальцев выше среднего»! Полидактилия усложняет проблему, так как десять не является строгой верхней границей; поскольку отсутствующие и лишние пальцы являются редкими событиями, студентам может быть неясно, какой эффект преобладает.

Я обычно использую биномиальное распределение с высоким . Но студенты часто находят, что «количество удовлетворительных компонентов в партии отрицательно искажено» менее интуитивно, чем дополнительный факт, что «количество неисправных компонентов в партии положительно искажено». (Учебник промышленно тематический; я предпочитаю треснутые и неповрежденные яйца в коробке из двенадцати.) Может быть, студенты считают, что «успех» должен быть редким.p

Другой вариант заключается в том, чтобы указать, что, если имеет положительный перекос, то имеет отрицательный перекос, но поместить его в практический контекст («отрицательные цены на жилье имеют отрицательный перекос») кажется обреченным на педагогический провал. Хотя обучение эффектам преобразования данных имеет свои преимущества, сначала представляется целесообразным привести конкретный пример. Я бы предпочел тот, который не кажется искусственным, где отрицательный перекос весьма однозначен и для которого жизненный опыт студентов должен дать им понимание формы распределения.XX


4
Не очевидно, что отрицание переменной будет «педагогическим провалом», потому что есть возможность добавить константу без изменения формы распределения. Многие искаженные распределения включают, например, пропорции , а дополнительные пропорции обычно столь же естественны и легко интерпретируются, как и исходные пропорции. Даже с ценами на жилье значения где - максимальная цена дома в этом районе, могут представлять интерес и не являются сложными для понимания. Также рассмотрите возможность использования логов и отрицательных преобразований мощности для создания отрицательного перекоса. X1XXCXC
whuber

2
Я согласен, что в случае цен на жилье будет немного надуманным. Но не будет: это будет «количество дома, которое вы можете купить за доллар». Я подозреваю, что в любой достаточно однородной области это будет иметь сильный отрицательный перекос. Такие примеры могут дать более глубокий урок, что асимметрия является функцией того, как мы выражаем данные. 1 / ХCX1/X
whuber

3
@whuber Это было бы совсем не надумано. Максимальные и минимальные потенциальные цены на рынке возникают естественным образом как отражающие различные оценки участников рынка. Среди покупателей, вероятно, есть тот, который заплатит максимальную цену за данный дом. И среди продавцов есть тот, который предположительно принял бы минимальную цену. Но эта информация не является общедоступной, и поэтому фактические цены транзакций зависят от наличия неполной информации. (ПРОДОЛЖЕНИЕ)
Алекос Пападопулос

1
ПРОДОЛЖЕНИЕ ... Следующая статья Kumbhakar and Parmeter (2010) моделирует именно это (допускает также случай симметрии) и с применением на домашнем рынке: link.springer.com/article/10.1007/s00181-009 -0292-8 # страница-1
Алекос Пападопулос

3
Возраст при смерти отрицательно искажен в развитых странах.
Ник Кокс

Ответы:


3

В Великобритании цена книги. Существует «Рекомендованная розничная цена», которая обычно будет модальной, и практически нигде вам не придется платить больше. Но некоторые магазины будут делать скидки, а некоторые будут делать большие скидки.

Также возраст на пенсии. Большинство людей выходят на пенсию в возрасте 65-68 лет, когда начинается государственная пенсия, очень мало людей работают дольше, но некоторые люди уходят на пенсию в возрасте 50 лет и довольно много в возрасте 60 лет.

Кроме того, число людей, получающих GCSE. Большинство детей поступают на 8-10 и получают 8-10. Небольшое число делает больше. Однако некоторые дети не сдают все свои экзамены, поэтому наблюдается постоянный рост с 0 до 7.


1
Это, возможно, требует объяснения, что GCSE - это экзамен в британских средних школах и некоторых смежных системах, который чаще всего проводится в возрасте около 16 лет. Число предметов, по которым принято, например, математика, как правило, один предмет.
Ник Кокс

18

Ник Кокс точно прокомментировал, что «возраст на момент смерти искажен в развитых странах», что, как мне показалось, было отличным примером.

Я обнаружил, что наиболее удобные цифры, на которые я мог возложить руки, пришли из Австралийского бюро статистики ( в частности, я использовал этот лист Excel ), так как их возрастные корзины выросли до 100 лет, а самому старшему австралийскому мужчине было 111 лет , поэтому я чувствовал себя комфортно, отрезав последний контейнер в 110 лет. Другие национальные статистические агентства часто, казалось, останавливались на 95, что делало финальную корзину неудобно широкой. Результирующая гистограмма показывает очень четкий негативный перекос, а также некоторые другие интересные особенности, такие как небольшой пик смертности среди детей младшего возраста, что было бы хорошо подходит для обсуждения и интерпретации в классе.

Возраст на момент смерти австралийских мужчин в 2012 году

R код с необработанными данными следует, HistogramTools пакет оказался очень полезным для построения графиков на основе агрегированных данных! Благодаря этому вопросу StackOverflow за пометку.

library(HistogramTools)

deathCounts <- c(565, 116, 69, 78, 319, 501, 633, 655, 848, 1226, 1633, 2459, 3375, 4669, 6152, 7436, 9526, 12619, 12455, 7113, 2104, 241)
ageBreaks <- c(0, 1, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 110)

myhist <- PreBinnedHistogram(
    breaks = ageBreaks,
    counts = deathCounts,
    xname = "Age at Death of Australian Males, 2012")
plot(myhist)

2
В некоторой степени относящийся к этой должности, я слышал, что возраст выхода на пенсию имеет отрицательную асимметрию: большинство людей выходят на пенсию примерно в номинальном возрасте (скажем, 65 или 67 лет во многих странах), но некоторые (скажем, работники угольных шахт) выходят на пенсию намного раньше.
Кристоф Хэнк

Соответствует ли возраст смерти некоторому известному распределению эмпирически?
StubbornAtom

11

Вот результаты для сорока спортсменов, которые успешно завершили законный прыжок в отборочном раунде прыжков в длину среди олимпийских мужчин 2012 года, представленные на графике плотности ядра с графиком коврика снизу.

Результаты мужского отборочного цикла Олимпийских игр в Лондоне 2012 года

Кажется, намного легче быть на метр позади основной группы конкурентов, чем на метр впереди, что объясняет отрицательную асимметрию.

Я подозреваю, что некоторые из группировок на верхнем торце связаны с квалификацией, нацеленной на атлетов (которая требовала финиша в верхних двенадцати или результатом 8,10 м или выше), а не на максимально длинной дистанции. Тот факт, что два верхних результата были 8,11 метра, чуть выше автоматической отметки квалификации, убедительно свидетельствует о том, что прыжки, завоевавшие медали в финале, были как более длинными, так и более распространенными на 8,31, 8,16 и 8,12 метра. Результаты в финале имели незначительный, незначительный, отрицательный перекос.

Для сравнения, результаты для олимпийского семиборье в Сеуле 1988 года доступны в heptathlonнаборе данных в пакете R HSAUR. В этом соревновании не было отборочного раунда, но каждое событие приносило очки в финальную классификацию; конкуренты женского пола показали резко отрицательную асимметрию в результатах прыжка в высоту и несколько отрицательную асимметрию в прыжке в длину. Интересно, что это не было воспроизведено в событиях метания (выстрел и метание копья), хотя они также являются событиями, в которых большее число соответствует лучшему результату. Итоговые баллы также были несколько отрицательно искажены.

Данные и код

require(moments)
require(ggplot2)

sourceAddress <- "http://www.olympic.org/olympic-results/london-2012/athletics/long-jump-m"

longjump.df <- read.csv(header=TRUE, sep=",", text="
rank,name,country,distance
1,Mauro Vinicius DA SILVA,BRA,8.11 
2,Marquise GOODWIN,USA,8.11
3,Aleksandr MENKOV,RUS,8.09
4,Greg RUTHERFORD,GBR,8.08
5,Christopher TOMLINSON,GBR,8.06
6,Michel TORNEUS,SWE,8.03
7,Godfrey Khotso MOKOENA,RSA,8.02
8,Will CLAYE,USA,7.99
9,Mitchell WATT,AUS,7.99,
10,Tyrone SMITH,BER,7.97,
11,Henry FRAYNE,AUS,7.95,
12,Sebastian BAYER,GER,7.92,
13,Christian REIF,GER,7.92,
14,Eusebio CACERES,ESP,7.92,
15,Aleksandr PETROV,RUS,7.89,
16,Sergey MORGUNOV,RUS,7.87,
17,Mohammad ARZANDEH,IRI,7.84,
18,Ignisious GAISAH,GHA,7.79,
19,Damar FORBES,JAM,7.79,
20,Jinzhe LI,CHN,7.77,
21,Raymond HIGGS,BAH,7.76,
22,Alyn CAMARA,GER,7.72,
23,Salim SDIRI,FRA,7.71,
24,Ndiss Kaba BADJI,SEN,7.66,
25,Arsen SARGSYAN,ARM,7.62,
26,Povilas MYKOLAITIS,LTU,7.61,
27,Stanley GBAGBEKE,NGR,7.59,
28,Marcos CHUVA,POR,7.55,
29,Louis TSATOUMAS,GRE,7.53,
30,Stepan WAGNER,CZE,7.50,
31,Viktor KUZNYETSOV,UKR,7.50,
32,Luis RIVERA,MEX,7.42,
33,Ching-Hsuan LIN,TPE,7.38,
33,Supanara SUKHASVASTI N A,THA,7.38,
35,Boleslav SKHIRTLADZE,GEO,7.26,
36,Xiaoyi ZHANG,CHN,7.25,
37,Mohamed Fathalla DIFALLAH,EGY,7.08,
38,Roman NOVOTNY,CZE,6.96,
39,George KITCHENS,USA,6.84,
40,Vardan PAHLEVANYAN,ARM,6.55,
NA,Luis MELIZ,ESP,NA,
NA,Irving SALADINO,PAN,NA")

roundedSkew <- signif(skewness(longjump.df$distance, na.rm=TRUE), 3)

ggplot(longjump.df, aes(x=distance)) + 
    xlab("Distance in metres") +
    ggtitle("London 2012 Men's Long Jump qualifying round results") +
    geom_rug(size=0.8) + 
    geom_density(fill="steelblue") +
    annotate("text", x=7.375, y=0.0625, colour="white", label=paste("Source:", sourceAddress), size=3) +
    annotate("rect", xmin = 6.25, xmax = 7.25, ymin = 0.5, ymax = 1.125, fill="white") +
    annotate("text", x=6.75, y=1, colour="black", label="Best jump in up to 3 attempts") +
    annotate("text", x=6.75, y=.875, colour="black", label="42 athletes competed") +
    annotate("text", x=6.75, y=.75, colour="black", label="2 athletes had no legal jump") +
    annotate("text", x=6.75, y=.625, colour="black", label=paste("Skewness = ", roundedSkew))


# Results of the top twelve who qualified for the Final were closer to symmetric
skewness(longjump.df$distance[1:12])
# -0.1248782

# Results in the Final (some had 3 jumps, others 6) were only slightly negatively skewed
skewness(c(8.31, 8.16, 8.12, 8.11, 8.10, 8.07, 8.01, 7.93, 7.85, 7.80, 7.78, 7.70))
# -0.08578357

# Compare to Seoul 1988 Heptathlon
require(HSAUR)
skewness(heptathlon)

11

Баллы на легких тестах или, наоборот, баллы на тестах, к которым ученики особенно мотивированы, имеют тенденцию оставаться искаженными.

В результате, баллы SAT / ACT студентов, поступающих в востребованные колледжи (и даже более того, их GPA), как правило, не совпадают. Есть много примеров на сайте Collegeapps.about.com, например, сюжет о Чикагском университете SAT / ACT и GPA .

Точно так же ГПД выпускников часто отклоняются влево, например, гистограммы ниже ГПД белых и чернокожих выпускников в коммерческом университете, взятые из рис. « Как пять характеристик студентов точно предсказывают коммерческие шансы на окончание университета ». SAGE Open 3.3 (2013): 2158244013497026.

Гистограмма ГПД показывает отрицательный перекос

(Нетрудно найти другие похожие примеры.)


2
Для вводного класса статистики я думаю, что этот пример хорошо работает с педагогической точки зрения - это то, что студенты, вероятно, имеют реальный опыт, могут интуитивно рассуждать, и могут подтвердить на основе широко доступных наборов данных.
Серебряная рыба

9

В Stochastic Frontier Analysis и, в частности, в его исторически первоначальном фокусе, производство, производственная функция фирмы / производственной единицы в целом, стохастически определяется как

Qзнак равное(Икс)+U-вес

Qе(Икс)ИксUвесиз-за причин, которые экономист может не знать, но он может измерить с помощью этой установки. Предполагается, что эта случайная величина обычно следует полунормальному или экспоненциальному распределению. Предполагая половину нормальной (по причине), мы имеем

U~N(0,σU2),вес~ЧАСN(2πσ2,(1-2π)σ22)

σ2

εзнак равноU-вес

еε(ε)знак равно2s2φ(ε/s2)Φ((-σ2σU)(ε/s2)),s22знак равноσU2+σ22

0s2(-σ2σU)φΦσUзнак равно1,σ2знак равно3введите описание изображения здесь

Таким образом, отрицательная асимметрия, я бы сказал, является наиболее естественным моделированием усилий самой человеческой расы: всегда отклоняться от воображаемого идеала - в большинстве случаев отстая от него (отрицательная часть плотности), в то время как в относительно меньшем числе случаев выход за пределы воспринимаемых пределов (положительная часть плотности). Сами студенты могут быть смоделированы как такая производственная функция. Несложно сопоставить симметричное возмущение и одностороннюю ошибку с аспектами реальной жизни. Я не могу себе представить, насколько более интуитивным можно об этом говорить.


1
Этот ответ, похоже, повторяет предложение @ Glen_b о выпуске GPA. Высоко мотивированное человеческое поведение, нацеленное на неуловимый идеал, безусловно, соответствует этому сценарию! Эффективность в целом является отличным примером.
Ник Стаунер

2
@Nick Stauner Важным моментом здесь является то, что мы рассматриваем «фактическую минус цель» со знаком, а не «расстояние» в абсолютных значениях. Мы держим знак, чтобы знать, находимся ли мы выше или ниже цели. Интуиция, как вы пишете, заключается в том, что «высоко мотивированное» поведение будет подталкивать «фактическое» ближе к «цели», создавая асимметрию.
Алекос Пападопулос

1
@NickStauner Действительно, собственная публикация результатов отборочных прыжков в Silverfish также связана с «высоко мотивированным поведением» (учитывая пределы того, что люди в настоящее время могут достичь как неформальный «неуловимый идеал»)
Glen_b

6

Отрицательная асимметрия распространена в гидрологии паводков. Ниже приведен пример кривой частоты наводнений (South Creek на Mulgoa Rd, lat -33.8783, lon 150.7683), которую я взял из «Австралийского дождя и стока» (ARR), руководство по оценке наводнений, разработанное инженерами, Австралия.

В ARR есть комментарий:

При отрицательном перекосе, который характерен для логарифмических значений паводков в Австралии, логарифмическое распределение Пирсона III имеет верхнюю границу. Это дает верхний предел для наводнений, которые можно извлечь из распределения. В некоторых случаях это может вызвать проблемы при оценке паводков с низким AEP, но часто не вызывает проблем на практике. [Извлечено из австралийского дождя и стока - Том 1, Книга IV, Раздел 2.]

Часто считается, что наводнения в определенном месте имеют верхнюю границу, называемую «Вероятное максимальное наводнение» (PMF). Существуют стандартные способы расчета PMF.

введите описание изображения здесь


7
+1 Этот пример наглядно показывает, насколько произвольным на самом деле является вопрос: когда вы измеряете паводки с точки зрения пикового расхода, они будут положительно искажены, но при измерении в логарифмическом потоке они (очевидно) будут отрицательно искажены. Точно так же любая положительная переменная может быть повторно выражена простым способом, который искажает ее распределение отрицательно (просто принимая соответственно отрицательный параметр Бокса-Кокса). Полагаю, все сводится к тому, что подразумевается под словом «легко понять», но это вопрос студентов, а не статистики.
whuber

5

Изменения (возврат) цен на активы, как правило, имеют отрицательный перекос - много небольших повышений цен с несколькими большими падениями цен. Похоже, что перекос сохраняется почти для всех типов активов: цены на акции, цены на сырьевые товары и т. Д. Отрицательный перекос можно наблюдать при ежемесячных изменениях цен, но он становится более очевидным, когда вы начинаете смотреть на ежедневные или почасовые изменения цен. Я думаю, что это был бы хороший пример, потому что вы можете показать влияние частоты на перекос.

Более подробная информация: http://www.fusioninvesting.com/2010/09/what-is-skew-and-why-is-it-important/


Мне очень нравится этот пример! Есть ли интуитивно понятный способ объяснить это - по сути, «шоки вниз будут более вероятными (или, по крайней мере, более серьезными), чем шоки вверх»?
Серебряная рыбка

2
@ Silverfish Я бы сказал, что экстремальные негативные рыночные результаты более вероятны, чем экстремальные позитивные рыночные. Рынки также имеют асимметричную волатильность. Волатильность рынка, как правило, возрастает в большей степени после отрицательных доходов, чем положительных. Это часто моделируется моделями Garch, такими как GJR-Garch (см. Статью Arch в Википедии).
Джон

3
Я также видел объяснение, что плохие новости выпускаются группами. Я не использовал GJR-GARCH. Я попытался использовать мультифрактальное броуновское движение (Мандельброта) для моделирования асимметрии, но не смог заставить его работать.
wcampbell

4
Это в лучшем случае упрощенно. Например, я просто взял набор данных ежедневной доходности по 31 фондовым индексам. Более половины из них имеют положительную асимметрию (с использованием асимметрии Пирсона) и более 70% имеют положительную оценку 3 * (среднее значение - медиана) / стандартное отклонение. Что касается товаров, то вы склонны видеть еще более позитивный перекос, так как шоки спроса и предложения могут быстро привести к росту цен (например, нефть, газ и кукуруза в последние годы).
Крис Тейлор

5

Гестационный возраст при родах (особенно для живорождений) оставляют искаженным. Младенцы могут родиться живыми очень рано (хотя шансы на дальнейшее выживание малы, когда слишком рано), пик между 36-41 неделями и быстрое снижение. Для женщин в США характерна индукция в течение 41/42 недель, поэтому после этой точки мы обычно не видим много родов.


4

В рыбном хозяйстве часто встречаются примеры отрицательного перекоса из-за нормативных требований. Например, распределение длины рыбы, выпущенной при рекреационном рыболовстве; потому что иногда минимальная длина рыбы должна быть такой, чтобы ее можно было сохранить, и вся рыба, находящаяся под этим лимитом, выбрасывается. Но так как люди ловят рыбу там, где рыба имеет законную длину, она имеет тенденцию к отрицательному перекосу и режиму в направлении верхнего правового предела. Юридическая длина не представляет собой жесткое ограничение, хотя. Из-за ограничений мешка (или ограничений на количество рыбы, которая может быть возвращена в док), люди все равно будут отказываться от рыбы законного размера, когда они поймали более крупную рыбу.

напр., Sauls, B. 2012. Сводка данных о распределении по размерам и условиях высвобождения популяции красного окуня из опросов о рыболовстве в рекреационных целях в Мексиканском заливе. SEDAR31-DW11. СЕДАР, Северный Чарльстон, Южная Каролина 29 с.


«Наклон к большим размерам» обычно интерпретируется как положительный перекос, а не как «отрицательный». Возможно, вы могли бы уточнить этот ответ с иллюстрацией типичного распределения? Механизмы, которые вы описываете - нормативный верхний предел и некоторая тенденция превышать его - могут привести к отрицательному или положительному перекосу, в зависимости от усеченного распределения мелкой рыбы (и в зависимости от того, как рыба измеряется: перекос их распределение по массе не будет таким же, как асимметрия их распределения по длине).
uuber

3

Некоторые отличные предложения были сделаны в этой теме. На тему смертности, связанной с возрастом, показатели отказов машин часто зависят от возраста машин и попадают в этот класс распределений. В дополнение к уже отмеченным финансовым факторам, функции и распределения финансовых потерь, как правило, напоминают эти формы, особенно в случае чрезвычайно значительных потерь, например, согласно оценкам BIS III (Банк международных расчетов) ожидаемого дефицита (ES), или в BIS II значение риска (VAR) в качестве входных данных для нормативных требований для распределения резервов капитала.


2

Возраст выхода на пенсию в США отрицательно искажен. Большинство пенсионеров старше, а некоторые выходят на пенсию относительно молодыми.


2

В теории случайных матриц распределение Трейси Уидома перекошено вправо. Это распределение наибольшего собственного значения случайной матрицы. По симметрии, наименьшее собственное значение имеет отрицательное распределение Трейси Уидома и, следовательно, перекошено влево.

Это примерно связано с тем, что случайные собственные значения сродни заряженным частицам, которые отталкиваются друг от друга, и, следовательно, наибольшее собственное значение имеет тенденцию отталкиваться от остальных. Вот преувеличенная картина (взято отсюда ):

введите описание изображения здесь


Правостороннее распределение имеет положительную асимметрию и поэтому не отвечает на вопрос.
whuber

@whuber: Имеется в виду использовать наименьшее собственное значение. Исправленный.
Алекс Р.
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.