Зачем использовать теорию экстремальных ценностей?


18

Я исхожу из гражданского строительства, в котором мы используем теорию экстремальных значений , такую ​​как распределение GEV, для прогнозирования значения определенных событий, таких как наибольшая скорость ветра , т. Е. Значение, до которого 98,5% скорости ветра будет ниже.

У меня такой вопрос: зачем использовать такое экстремальное распределение ценностей ? Не было бы проще, если бы мы просто использовали общее распределение и получили значение для вероятности 98,5% ?

Ответы:


24

Отказ от ответственности: в следующих пунктах это GROSSLY предполагает, что ваши данные нормально распространяются. Если вы на самом деле что-то разрабатываете, поговорите с сильным профессионалом в области статистики и позвольте этому человеку поставить подпись в строке, сообщив, какой будет уровень. Поговорите с пятью из них или 25 из них. Этот ответ предназначен для студента-строителя, спрашивающего «почему», а не для инженера-строителя, спрашивающего «как».

Я думаю, что вопрос, стоящий за вопросом: «что такое экстремальное распределение стоимости?». Да, это некоторая алгебра - символы. Ну и что? право?

Давайте вспомним о 1000-летних наводнениях. Они большие.

Когда они случаются, они убивают много людей. Много мостов рушится.
Вы знаете, что мост не идет вниз? Я делаю. Вы не ... пока.

Вопрос: Какой мост не разрушится при 1000-летнем наводнении?
Ответ: Мост предназначен для того, чтобы противостоять ему.

Данные, которые вам нужны, чтобы сделать это по-своему:
Допустим, у вас есть 200 лет ежедневных данных о воде. 1000-летнее наводнение там? Не удаленно. У вас есть образец одного хвоста распределения. У вас нет населения. Если бы вы знали всю историю наводнений, то у вас была бы общая совокупность данных. Давайте подумаем об этом. Сколько лет данных вам нужно иметь, сколько выборок, чтобы иметь хотя бы одно значение, вероятность которого равна 1 на 1000? В идеальном мире вам понадобится как минимум 1000 образцов. Реальный мир грязный, поэтому вам нужно больше. Вы начинаете получать шансы 50/50 примерно на 4000 образцов. Вы получаете гарантированно более 1 на 20 000 образцов. Выборка означает не «вода одна секунда против следующей», а показатель для каждого уникального источника вариаций - например, годичных изменений. Одна мера за один год, наряду с другой мерой в течение другого года составляют две выборки. Если у вас нет хороших данных за 4000 лет, то, скорее всего, у вас нет примера 1000-летнего потока данных. Хорошая вещь - вам не нужно столько данных, чтобы получить хороший результат.

Вот как можно получить лучшие результаты с меньшим количеством данных:
если вы посмотрите на годовые максимумы, вы можете подогнать «экстремальное распределение значений» к 200 значениям year-max-level, и вы получите распределение, которое содержит 1000-летнее наводнение. -уровень. Это будет алгебра, а не фактическое «насколько она велика». Вы можете использовать уравнение, чтобы определить, насколько большим будет 1000-летнее наводнение. Затем, учитывая тот объем воды - вы можете построить свой мост, чтобы противостоять ему. Не стреляйте по точному значению, стреляйте по большему, иначе вы проектируете его, чтобы он потерпел неудачу при 1000-летнем наводнении. Если вы смелые, то вы можете использовать повторную выборку, чтобы выяснить, насколько выше точного 1000-летнего значения вам нужно построить его, чтобы оно сопротивлялось.

Вот почему EV / GEV являются релевантными аналитическими формами:
Обобщенное распределение экстремальных значений показывает, насколько изменяется максимум. Изменение в максимуме ведет себя действительно иначе, чем изменение в среднем. Нормальное распределение через центральную предельную теорему описывает множество «центральных тенденций».

Процедура:

  1. выполните следующие 1000 раз:
    i. выбрать 1000 номеров из стандартного нормального распределения
    ii. рассчитать максимум этой группы образцов и сохранить его
  2. Теперь построим график распределения результата.

    #libraries
    library(ggplot2)
    
    #parameters and pre-declarations
    nrolls <- 1000
    ntimes <- 10000
    store <- vector(length=ntimes)
    
    #main loop
    for (i in 1:ntimes){
    
         #get samples
         y <- rnorm(nrolls,mean=0,sd=1)
    
         #store max
         store[i] <- max(y)
    }
    
    #plot
    ggplot(data=data.frame(store), aes(store)) + 
         geom_histogram(aes(y = ..density..),
                        col="red", 
                        fill="green", 
                        alpha = .2) + 
         geom_density(col=2) + 
         labs(title="Histogram for Max") +
         labs(x="Max", y="Count")
    

Это НЕ "стандартное нормальное распределение": введите описание изображения здесь

Пик составляет 3,2, но максимум возрастает до 5,0. Это имеет перекос. Это не становится ниже около 2,5. Если у вас есть фактические данные (стандартная норма) и вы просто выбираете хвост, то вы равномерно случайным образом выбираете что-то вдоль этой кривой. Если вам повезет, то вы направляетесь к центру, а не к нижнему хвосту. Инжиниринг - это противоположность удачи - это постоянное достижение желаемых результатов каждый раз. « Случайные числа слишком важны, чтобы оставлять их на волю случая » (см. Сноску), особенно для инженера. Семейство аналитических функций, которое наилучшим образом соответствует этим данным - семейство распределений экстремальных значений.

Пример выборки:
допустим, у нас есть 200 случайных значений максимума года из стандартного нормального распределения, и мы собираемся представить, что они являются нашей 200-летней историей максимальных уровней воды (что бы это ни значило). Чтобы получить дистрибутив, мы сделали бы следующее:

  1. Пример переменной «store» (для краткого / простого кода)
  2. подходит для обобщенного распределения экстремальных значений
  3. найти среднее значение распределения
  4. используйте начальную загрузку, чтобы найти верхний предел 95% ДИ при изменении среднего, поэтому мы можем нацелить нашу разработку на это.

(код предполагает, что выше было выполнено первым)

library(SpatialExtremes) #if it isn't here install it, it is the ev library
y2 <- sample(store,size=200,replace=FALSE)  #this is our data

myfit <- gevmle(y2)

Это дает результаты:

> gevmle(y2)    
       loc      scale      shape     
 3.0965530  0.2957722 -0.1139021     

Их можно подключить к функции генерации для создания 20 000 образцов

y3 <- rgev(20000,loc=myfit[1],scale=myfit[2],shape=myfit[3])

Построение следующего даст 50/50 шансов на провал в любой год:

среднее (у3)
3,23681

Вот код, чтобы определить, что такое 1000-летний уровень "наводнения":

p1000 <- qgev(1-(1/1000),loc=myfit[1],scale=myfit[2],shape=myfit[3])
p1000

Придерживаясь этого, вы получите 50/50 шансов на неудачу при 1000-летнем наводнении.

p1000
4,510931

Для определения 95% верхнего значения CI я использовал следующий код:

myloc <- 3.0965530
myscale <- 0.2957722
myshape <- -0.1139021

N <- 1000
m <- 200
p_1000 <- vector(length=N)
yd <- vector(length=m)

for (i in 1:N){

      #generate samples
    yd <- rgev(m,loc=myloc,scale=myscale,shape=myshape)

    #compute fit
    fit_d <- gevmle(yd)

    #compute quantile
    p_1000[i] <- qgev(1-(1/1000),loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])

}

mytarget <- quantile(p_1000,probs=0.95)

Результат был:

> mytarget
     95% 
4.812148

Это означает, что для того, чтобы противостоять подавляющему большинству 1000-летних наводнений, учитывая, что ваши данные безукоризненно нормальны (маловероятны), вы должны построить для ...

> out <- pgev(4.812148,loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])
> 1/(1-out)

или

> 1/(1-out)
   shape 
1077.829 

... 1078 год потопа.

Итоги:

  • у вас есть выборка данных, а не фактическая общая численность населения. Это означает, что ваши квантили являются оценочными и могут быть отключены.
  • Распределения, такие как обобщенное распределение экстремальных значений, построены так, чтобы использовать выборки для определения фактических хвостов. Они гораздо менее хороши при оценке, чем при использовании значений выборки, даже если у вас недостаточно выборок для классического подхода.
  • Если вы крепкий, потолок высокий, но результат этого - вы не подведете.

Удачи

PS:

  • Я слышал, что некоторые проекты гражданского строительства нацелены на 98,5-й процентиль. Если бы мы вычислили 98,5-й процентиль вместо максимума, то нашли бы другую кривую с другими параметрами. Я думаю, что это предназначено, чтобы построить к 67-летнему шторму. Подход там, imo, заключался бы в том, чтобы найти распределение для 67-летних штормов, а затем определить отклонения от среднего и получить заполнение, чтобы оно было разработано так, чтобы добиться успеха на 67-м году шторм, а не провалиться в нем.
    1/(1-0,985)67
  • Учитывая предыдущий пункт, в среднем каждые 67 лет гражданские люди должны были восстанавливать. Таким образом, при полной стоимости проектирования и строительства каждые 67 лет, учитывая срок эксплуатации гражданской конструкции (я не знаю, что это такое), в какой-то момент может быть дешевле производить инженерные работы в течение более длительного меж штормового периода. Жизнеспособная гражданская инфраструктура - это та, которая рассчитана на то, чтобы обеспечить непрерывную жизнь хотя бы одного человека без сбоев, верно?

PS: веселее - видео на YouTube (не мое)
https://www.youtube.com/watch?v=EACkiMRT0pc

Сноска: Ковей, Роберт Р. «Генерация случайных чисел слишком важна, чтобы ее можно было оставить на волю случая». Методы прикладной вероятности и Монте-Карло и современные аспекты динамики. Исследования по прикладной математике 3 (1969): 70-111.


2
Я не могу быть достаточно ясным. Моя главная проблема заключается в том, что нужно использовать, extreme value distributionа не the overall distributionподгонять данные, и получить значения 98,5%.
cqcn1991

Что вы подразумеваете под общим населением?
kjetil b halvorsen


2
@EngrStudent отличный ответ, однако было бы еще лучше, если бы вы продемонстрировали, как EVT работает здесь лучше, чем обычное распределение, помимо предоставления иллюстрации.
Тим

2
После некоторой работы по моделированию я бы сказал, что использование родительского распределения просто опасно, потому что данных очень мало, а экстраполяция просто опасна и нестабильна для моделирования экстремальных событий. И таким образом мы должны использовать теорию EV вместо этого.
cqcn1991

7

Вы используете теорию экстремальных значений для экстраполяции данных наблюдений. Часто у вас просто недостаточно данных, чтобы дать вам разумную оценку вероятности хвоста. Взяв пример @ EngrStudent о событии «1 в 1000»: это соответствует нахождению квантиля 99,9% распределения. Но если у вас есть данные только за 200 лет, вы можете рассчитать эмпирические квантильные оценки только до 99,5%.

Теория экстремальных значений позволяет вам оценить квантиль 99,9%, делая различные предположения о форме вашего распределения в хвосте: что оно гладкое, что оно распадается с определенным шаблоном и так далее.

Вы можете подумать, что разница между 99,5% и 99,9% незначительна; В конце концов, это всего лишь 0,4%. Но это разница в вероятности , и когда вы в хвосте, это может привести к огромной разнице в квантилях . Вот иллюстрация того, как это выглядит для гамма-дистрибутива, у которого не очень длинный хвост по ходу дела. Синяя линия соответствует квантилю 99,5%, а красная линия - квантилю 99,9%. Хотя разница между ними незначительна по вертикальной оси, расстояние по горизонтальной оси существенно. Разделение только увеличивается для действительно длиннохвостых распределений; гамма на самом деле довольно безобидный случай.

введите описание изображения здесь


Ваш ответ неверный. Точка 99,9% от годового нормального значения не соответствует событию 1 на 1000 лет. Максимум 1000 нормалей имеет другое распределение. Я думаю, что это рассматривается в других ответах.
Марк Л. Стоун

@ MarkL.Stone Нигде я ничего не говорил о максимуме 1000 нормалей.
Хонг Ой

1
Это именно моя точка зрения. Событие 1 в 1000 лет должно основываться на максимуме 1000 в год. Это очень отличается от 99,9 $ в годовом исчислении. Смотрите мой комментарий к ответу Карела Мацека ниже.
Марк Л. Стоун

@ MarkL.Stone Цель графика - показать, что когда вы в хвосте, небольшие изменения в вероятностях соответствуют большим изменениям в квантилях. Вы можете заменить 99% квантиль GEV или GPD, или любой другой дистрибутив. (И я даже не упомянул нормальное распределение.)
Hong Ooi

Кроме того, оценка максимумов с помощью GEV является лишь одним из способов получения хвостовых квантилей. Другой способ - оценить квантили напрямую через GPD (при условии распределения с тяжелыми хвостами).
Хонг Ой

7

Если вас интересует только хвост, то имеет смысл сосредоточить усилия на сборе и анализе данных на хвосте. Это должно быть более эффективным, чтобы сделать это. Я подчеркнул сбор данных, потому что этот аспект часто игнорируется при представлении аргумента для распределений EVT. На самом деле, было бы невозможно собрать соответствующие данные для оценки того, что вы называете общим распределением в некоторых областях. Я объясню более подробно ниже.

Если вы смотрите на наводнение 1 на 1000 лет, как в примере @ EngrStudent, то для построения тела нормального распределения вам нужно много данных, чтобы заполнить его наблюдениями. Потенциально вам нужен каждый потоп, произошедший за последние сотни лет.

Теперь остановитесь на секунду и подумайте, что такое потоп? Когда мой сильный двор затоплен после сильного дождя, это наводнение? Вероятно, нет, но где именно находится линия, которая очерчивает наводнение от события, которое не является наводнением? Этот простой вопрос подчеркивает проблему со сбором данных. Как вы можете быть уверены, что мы собираем все данные о теле в соответствии с одним и тем же стандартом в течение десятилетий или даже столетий? Практически невозможно собрать данные о теле распределения наводнений.

Таким образом, это не только вопрос эффективности из анализа , но вопрос о целесообразности данных коллекции : стоит ли моделировать все распределение или просто хвост?

Естественно, с хвостами сбор данных намного проще. Если мы определим достаточно высокий порог для того, что является огромным наводнением , тогда у нас будет больше шансов, что все или почти все такие события, вероятно, будут записаны каким-либо образом. Трудно пропустить разрушительное наводнение, и если там будет какая-то цивилизация, то об этом событии сохранится память. Таким образом, имеет смысл создавать аналитические инструменты, которые фокусируются конкретно на хвостах, учитывая, что сбор данных гораздо более устойчив к экстремальным событиям, чем к неэкстремальным во многих областях, таких как исследования надежности.


+1 Интересные и убедительные моменты, особенно в комментариях в конце.
whuber

(+1) В связи с вашим последним пунктом (сохраненная память) может быть интересен эффект Садлера .
GeoMatt22

@ GeoMatt22, я впервые увидел статью и термин «эффект Садлера». Спасибо за ссылку
Аксакал

Это действительно отличный момент. Это система, поэтому системный подход может иметь превосходную доходность. Лучший анализ в мире может быть отравлен нежелательными данными. Достаточно простой анализ, основанный на хороших данных, может дать отличные результаты. Хорошие моменты!
EngrStudent - Восстановить Монику

6

Обычно распределение базовых данных (например, гауссовых скоростей ветра) относится к одной точке выборки. 98-й процентиль скажет вам, что для любой случайно выбранной точки вероятность того, что значение будет больше 98-го процентиля, составляет 2%.

Я не инженер-строитель, но я хотел бы представить, что вы хотели бы знать не вероятность того, что скорость ветра в тот или иной день превысит определенное число, а распределение максимально возможного порыва, скажем, ход года. В этом случае, если суточные максимумы порывов ветра, скажем, экспоненциально распределены, то вам нужно распределение максимального порыва ветра за 365 дней ... это то, что должно было решить распределение экстремальных значений.


1

Использование квантиля упрощает дальнейшие вычисления. Инженеры-строители могут подставить значение (например, скорость ветра) в свои формулы первого принципа, и они получают поведение системы для тех экстремальных условий, которые соответствуют квантилю 98,5%.

Может показаться, что использование всего дистрибутива даст больше информации, но усложнит вычисления. Тем не менее, это может позволить использовать передовые подходы к управлению рисками, которые позволят оптимально сбалансировать затраты, связанные с (i) строительством и (ii) риском отказа.


Ну ... я не могу быть достаточно ясно. Я просто хочу знать, зачем использовать теорию экстремальных значений, а не общее распределение (целое распределение?), Которое мы обычно используем?
cqcn1991

1
Если кумулятивная функция распределения для любого одного экземпляра, такого как суточная максимальная скорость ветра, равна F (x), то кумулятивная функция распределения для максимума из n независимых экземпляров (например, n = 365 для года с суточной максимальной скоростью ветра) ) является F ^ n (x). Это отличается от F (x).
Марк Л. Стоун
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.