Простые примеры из реальной жизни для обучения байесовской статистике?


10

Я хотел бы найти несколько «реальных примеров» для преподавания байесовской статистики. Байесовская статистика позволяет формально включить предыдущие знания в анализ. Я хотел бы привести студентам несколько простых примеров из реальной жизни, в которых исследователи включили в свой анализ предшествующие знания, чтобы студенты могли лучше понять мотивацию, по которой можно в первую очередь использовать байесовскую статистику.

Известны ли вам какие-либо простые примеры из реальной жизни, такие как оценка среднего значения, пропорции, регрессии и т. Д., Где исследователи официально включают в себя предварительную информацию? Я понимаю, что байесовцы могут использовать «неинформативные» приоры, но меня особенно интересуют реальные примеры, где используются информативные приоры (то есть реальная априорная информация).


Я думаю, что IQ - довольно хороший пример.
Хейзеб

Не совсем ответ, но когда вы подбрасываете монету три раза и голова поднимается два раза, ни один студент не поверит, что эта голова была в два раза чаще, чем хвосты. Это довольно убедительно, хотя, конечно, это не настоящее исследование.
Бернхард

1
Вы можете проверить этот ответ, написанный вашим по-настоящему: stats.stackexchange.com/a/134385/61496
Яир Даон

Возможно, вы объединяете Байесовское правило, которое может быть применено в вероятностной / оценочной статистике, и байесовской статистике, где «вероятность» - это краткое изложение веры?
AdamO

Ответы:


6

Байесовская теория поиска представляет собой интересное в реальном времени приложение байесовской статистики, которая много раз применялась для поиска потерянных судов в море. Для начала карта делится на квадраты. Каждому квадрату присваивается предшествующая вероятность удержания потерянного судна на основе последней известной позиции, курса, пропущенного времени, течений и т. Д. Кроме того, каждому квадрату назначается условная вероятность обнаружения судна, если оно действительно находится в этом квадрате, на основе такие вещи, как глубина воды. Эти распределения объединяются, чтобы расставить приоритеты квадратов карты, которые имеют наибольшую вероятность получения положительного результата - это не обязательно самое вероятное место для корабля, но наиболее вероятное место фактического нахождения корабля.


1
Хорошо, именно такие приложения описаны в развлекательной книге «Теория, которая не умрет»: как правило Байеса взломало код загадки, выследило русские подводные лодки и вышло победоносным из двух вековых споров . Кроме того, Тьюринг использовал подобные рассуждения, чтобы разгадать загадку.
Jpmuc

Вероятностный ли это байесовский?
Андрей

5

Я думаю, что оценка производства или численности населения по серийным номерам интересна, если использовать традиционный пояснительный пример. Здесь вы пытаетесь максимально дискретного равномерного распределения. В зависимости от выбранного вами предварительного значения максимальная вероятность и байесовские оценки будут различаться довольно прозрачно.

Пожалуй, самый известный пример - это оценка скорости производства немецких танков во время второй мировой войны по диапазонам серийных номеров танков и кодам производителей, выполненным в установках для частых исследований (Ruggles and Brodie, 1947). Альтернативный анализ с байесовской точки зрения с информативными априорами был сделан (Дауни, 2013), а с неподходящими неинформативными априорами - (Höhle and Held, 2004). Работа (Höhle and Held, 2004) также содержит намного больше ссылок на предыдущее обращение в литературе, и на этом сайте также обсуждается эта проблема.

Источники:

Глава 3, Дауни, Аллен. Подумайте, Байес: Байесовская статистика в Python. "O'Reilly Media, Inc.", 2013.

Википедия

Ruggles, R .; Brodie, H. (1947). «Эмпирический подход к экономической разведке во Второй мировой войне». Журнал Американской статистической ассоциации. 42 (237): 72.

Хёле, Михаэль и Леонард Хельд. Байесовская оценка численности населения. № 499. Дискуссионный документ // Sonderforschungsbereich 386 der Ludwig-Maximilians-Universität München, 2006.


3

В статистике пространственно -временных данных Кайли и Уикла есть хорошая история о (байесовском) поиске подводной лодки «Скорпион», потерянной в 1968 году. Мы рассказываем эту историю нашим студентам и просим их выполнить ( упрощенно) поиск с использованием симулятора .

Подобные примеры могут быть построены вокруг истории пропавшего полета MH370; Возможно, вы захотите взглянуть на Davey et al., Байесовские методы в поиске MH370 , Springer-Verlag.


1

Вот пример оценки среднего значения из нормальных непрерывных данных. Прежде чем углубиться непосредственно в пример, я хотел бы рассмотреть некоторые математические расчеты для нормальных и нормальных байесовских моделей данных.θ

Рассмотрим случайную выборку из п непрерывные значения , обозначаемые . При этом вектор у = ( у 1 , . . . , У п ) Т представляет собой данные , собранные. Вероятностная модель для нормальных данных с известной дисперсией и независимыми и одинаково распределенными (iid) выборкамиy1,...,yny=(y1,...,yn)T

y1,...,yn|θN(θ,σ2)

Или, как более типично написано байесовским,

y1,...,yn|θN(θ,τ)

где ; τ известен как точностьτ=1/σ2τ

В этих обозначениях плотность для равнаyi

f(yi|θ,τ)=(τ2π)×exp(τ(yiθ)2/2)

Классическая статистика (т.е. максимального правдоподобия) дает нам оценку θ = ˉ уθ^=y¯

В байесовской перспективе мы добавляем максимальную вероятность с предварительной информацией. Выбор априорных значений для этой нормальной модели данных является еще одним нормальным распределением для . Нормальное распределение сопряжено с нормальным распределением.θ

θN(a,1/b)

Апостериорное распределение, которое мы получаем из этой модели данных Normal-Normal (после множества алгебр), является еще одним нормальным распределением.

θ|yN(bb+nτa+nτb+nτy¯,1b+nτ)

b+nτay¯bb+nτa+nτb+nτy¯

θ|yθθ

Тем не менее, теперь вы можете использовать любой пример учебника с обычными данными, чтобы проиллюстрировать это. Я буду использовать набор данных airqualityв R. Рассмотрим проблему оценки средней скорости ветра (MPH).

> ## New York Air Quality Measurements
> 
> help("airquality")
> 
> ## Estimating average wind speeds
> 
> wind = airquality$Wind
> hist(wind, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
>

введите описание изображения здесь

> n = length(wind)
> ybar = mean(wind)
> ybar
[1] 9.957516 ## "frequentist" estimate
> tau = 1/sd(wind)
> 
> 
> ## but based on some research, you felt avgerage wind speeds were closer to 12 mph
> ## but probably no greater than 15,
> ## then a potential prior would be N(12, 2)
> 
> a = 12
> b = 2
> 
> ## Your posterior would be N((1/))
> 
> postmean = 1/(1 + n*tau) * a + n*tau/(1 + n*tau) * ybar
> postsd = 1/(1 + n*tau)
> 
> set.seed(123)
> posterior_sample = rnorm(n = 10000, mean = postmean, sd = postsd)
> hist(posterior_sample, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
> abline(v = median(posterior_sample))
> abline(v = ybar, lty = 3)
> 

введите описание изображения здесь

> median(posterior_sample)
[1] 10.00324
> quantile(x = posterior_sample, probs = c(0.025, 0.975)) ## confidence intervals
2.5%     97.5% 
9.958984 10.047404 

В этом анализе исследователь (вы) может сказать, что, учитывая данные + предварительную информацию, ваша оценка среднего ветра с использованием 50-го процентиля скорости должна быть 10,00324, что больше, чем просто использование среднего значения из данных. Вы также получаете полный дистрибутив, из которого вы можете извлечь доверительный интервал 95%, используя квантили 2,5 и 97,5.

Ниже я приведу две ссылки, я настоятельно рекомендую прочитать небольшую статью Казеллы. Он специально нацелен на эмпирические байесовские методы, но объясняет общую байесовскую методологию для нормальных моделей.

Ссылки:

  1. Казелла Г. (1985). Введение в эмпирический байесовский анализ данных. Американский статистик, 39 (2), 83-87.

  2. Гельман А. (2004). Байесовский анализ данных (2-е изд., Тексты по статистике). Boca Raton, Fla .: Chapman & Hall / CRC.


1

Область исследований, где я считаю, что байесовские методы абсолютно необходимы, - это оптимальное проектирование.

xβx

xβββx

  • n=0β^

  • β^

  • β=1β^=5xβ=5x

  • β

xx

xβ

βx

x


1

В последнее время я размышлял над этим вопросом и думаю, что у меня есть пример, в котором байесовский смысл имеет смысл с использованием предварительной вероятности: отношения вероятности клинического теста.

Примером может служить следующий пример: допустимость опускания мочи в условиях ежедневной практики (Family Practice 2003; 20: 410-2). Идея состоит в том, чтобы увидеть, что положительный результат мочеиспускания влияет на диагностику инфекции мочи. Коэффициент вероятности положительного результата:

Lр(+)знак равноTеsT+|ЧАС+TеsT+|ЧАС-знак равноSеNsябяLяTY1-sпесяеясяTY
ЧАС+ЧАС-

Ор(+|TеsT+)знак равноLр(+)×Ор(+)
OROR(+|test+)OR(+)

LR(+)=12.2LR()=0.29

p+=2/3p+|test+=0.96p+|test=0.37

Здесь тест полезен для выявления инфекции, но не настолько хорош, чтобы отказаться от инфекции.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.