Я хотел бы проиллюстрировать пример в отношении моделирования, связанного с уровнем заболеваемости раком (как в Johnson and Albert 1999). Это коснется первого и третьего элемента вашего интереса.
Таким образом, проблема заключается в прогнозировании заболеваемости раком в разных городах. Скажем, у нас есть данные о количестве людей в разных городах и количестве людей, которые умерли от рака . Скажем, мы хотим оценить уровень заболеваемости раком . Существуют различные способы их моделирования и, как мы видим, проблемы с каждым из них. Мы увидим, как иерархическое байесовское моделирование может преодолеть некоторые проблемы.
1. Один из способов состоит в том, чтобы проводить оценку отдельно, но мы будем страдать от редкой проблемы с данными и будем недооценивать показатели, как для низкого .x i θ iNяИксяθя
θ я θ я θ я х я ~ Б я л ( N я , θ я ) θ я ~ Б е т ( , б ) р ( D , θ , п | Н ) = p ( η ) ∏ N i = 1 B iNя
2. Еще один подход к решению проблемы разреженных данных состоит в том, чтобы использовать один и тот же для всех городов и связать параметры, но это также очень сильное предположение.
3. Итак, все, что можно сделать, это то, что все похожи в некотором роде, но также с изменениями, характерными для города. Таким образом, можно смоделировать таким образом, чтобы все были взяты из общего дистрибутива. Скажите и
Тогда полное совместное распределение будет где . Нам нужно сделать выводθя
θяθяИкся~ Б я л ( Nя, θя)θя∼ B e t a ( a , b )
η = ( a , b ) η θ i η θ ip ( D , θ , η| N) = p ( η) ∏Nя = 1Б я н ( хя| Nя, θя) B e t a ( θя| η)η= ( а , б )ηиз данных. Если он ограничен константой, то информация не будет между и будет условно независимой. Но, рассматривая как неизвестные, мы позволяем городам с меньшим количеством данных брать статистическую силу из городов с большим количеством данных.
Основная идея состоит в том, чтобы больше байесовских и установочных априоров для априорных значений, чтобы моделировать неопределенность в гиперпараметрах. Это позволяет поток влияния между в этом примере.θiη
θi