Реальные примеры распространенных дистрибутивов


28

Я аспирант, развивающий интерес к статистике. Мне нравится материал в целом, но мне иногда трудно думать о приложениях в реальной жизни. В частности, мой вопрос касается часто используемых статистических распределений (нормальное - бета-гамма и т. Д.). Я предполагаю, что в некоторых случаях я получаю особые свойства, которые делают распределение весьма приятным - например, свойство экспоненты без памяти. Но во многих других случаях у меня нет интуиции о важности и областях применения общих дистрибутивов, которые мы видим в учебниках.

Вероятно, есть много хороших источников, касающихся моих проблем, я был бы рад, если бы вы могли поделиться ими. Я был бы гораздо более мотивирован в материале, если бы мог связать его с реальными примерами.


8
Четырнадцать видов приложений, охватывающих широкий спектр дистрибутивов, описаны в разделе «Приложения» на странице справки по функциям Mathematica EstimatedDistribution .
whuber

Ответы:


23

В Википедии есть страница, на которой перечислены многие вероятностные распределения со ссылками на более подробную информацию о каждом распределении. Вы можете просмотреть список и перейти по ссылкам, чтобы лучше понять типы приложений, для которых обычно используются различные дистрибутивы.

Просто помните, что эти дистрибутивы используются для моделирования реальности, и, как сказал Бокс: «все модели ошибочны, некоторые модели полезны».

Вот некоторые из распространенных дистрибутивов и некоторые из причин, по которым они полезны:

Нормальный: Это полезно для просмотра средних и других линейных комбинаций (например, коэффициентов регрессии) из-за CLT. С этим связано то, что если что-то, как известно, возникает из-за аддитивных эффектов многих различных мелких причин, то нормальное распределение может быть разумным распределением: например, многие биологические измерения являются результатом множества генов и множества факторов окружающей среды, и поэтому они часто приблизительно нормальны. ,

Гамма: правильное перекошено и полезно для вещей с естественным минимумом в 0. Обычно используется для истекшего времени и некоторых финансовых переменных.

Экспоненциальный: частный случай гаммы. Это без памяти и легко масштабируется.

χ2

Бета: Определяется между 0 и 1 (но может быть преобразовано в другие значения), полезно для пропорций или других величин, которые должны быть между 0 и 1.

Бином: количество «успехов» из данного числа независимых испытаний с одинаковой вероятностью «успеха».

Пуассон: общий для подсчета. Хорошие свойства: если число событий в периоде времени или области следует за Пуассоном, то число в два раза больше времени или области все еще следует за Пуассоном (с двойным средним): это работает для добавления Пуассона или масштабирования со значениями, отличными от 2.

Обратите внимание, что если события происходят во времени, а время между событиями следует экспоненте, то число, которое происходит за период времени, следует за Пуассоном.

Отрицательный бином: счет с минимальным 0 (или другим значением в зависимости от версии) и без верхней границы. Концептуально это число «неудач» до k «успехов». Отрицательный бином также является смесью пуассоновских переменных, чьи средние значения берутся из гамма-распределения.

Геометрический: особый случай отрицательного бинома, где это число «неудач» до 1-го «успеха». Если вы урежете (округлите вниз) экспоненциальную переменную, чтобы сделать ее дискретной, результат будет геометрическим.


3
Ну, спасибо за ваш ответ. Тем не менее, википедия дает более общее описание, которое я хотел бы. В основном, мой вопрос, почему некоторые дистрибутивы хороши? Чтобы дать возможный ответ в случае нормального распределения, можно связать центральную ограниченную теорему, которая гласит, что если вы выберете бесконечное количество наблюдений, вы можете фактически в асимптотике увидеть, что достаточная статистика этих наблюдений при данной независимости имеет нормальное распределение , Я ищу другие примеры, как это ..
Роарк

Не совсем реальное распределение, но как насчет бимодального? Я не могу вспомнить какие-либо общеизвестные примеры из реальной жизни после того, как обнаружил, что многие гендерные различия у человека не являются бимодальными.
потолочный кот

Добавить многочлен

3

Асимптотическая теория приводит к нормальному распределению, типам экстремальных значений, устойчивым законам и пуассонову. Экспонента и Вейбулл имеют тенденцию подходить как параметрическое время к распределению событий. В случае с Вейбуллом это тип экстремального значения для минимума выборки. Относительно параметрических моделей для нормально распределенных наблюдений распределения хи-квадрат, t и F возникают при проверке гипотез и оценке доверительных интервалов. Хи-квадрат также подходит для анализа таблиц сопряженности и проверок на соответствие. Для изучения мощности тестов мы имеем нецентральные распределения t и F. Гипергеометрическое распределение возникает в точном тесте Фишера для таблиц сопряженности. Биноминальное распределение важно при проведении экспериментов для оценки пропорций. Отрицательный бином является важным распределением для моделирования избыточной дисперсии в точечном процессе. Это должно дать вам хорошее начало для практических параметрических распределений. Для неотрицательных случайных величин на (0, ∞) гамма-распределение является гибким для предоставления разнообразных форм, и обычно используется логарифмическая норма. На [0,1] семейство бета обеспечивает симметричные распределения, включая равномерное распределение, а также распределения, отклоненные влево или вправо.

Я должен также упомянуть, что если вы хотите знать все мельчайшие подробности о распределениях в статистике, есть классическая серия книг Джонсона и Коца, которые включают дискретные распределения, непрерывные одномерные распределения и непрерывные многомерные распределения, а также том 1 Расширенной теории Статистика Кендалла и Стюарта.


Большое спасибо за ответ, это очень полезно. Еще раз спасибо, это действительно помогло мне.
Роарк

2

Купите и прочитайте, по крайней мере, первые 6 глав (первые 218 страниц) Уильяма Дж. Феллера «Введение в теорию вероятностей и ее приложения, том 2» http://www.amazon.com/dp/0471257095/ref=rdr_ext_tmb , По крайней мере, прочитайте все «Проблемы для решения» и, желательно, постарайтесь решить как можно больше. Вам не нужно читать Том 1, что, на мой взгляд, не особенно заслуживает похвалы.

Несмотря на то, что автор скончался 45 с половиной лет назад, еще до того, как книга была закончена, это просто самая лучшая книга, без исключения, для развития интуиции в вероятностных и случайных процессах, а также для понимания и развития ощущения различных распределений как они связаны с явлениями реального мира и различными стохастическими явлениями, которые могут и происходят. И с прочной основой вы будете строить из него, вы будете хорошо обслуживаться в статистике.

Если вы можете сделать это через последующие главы, что несколько усложняется, вы будете на несколько лет впереди почти всех. Проще говоря, если вы знаете Феллера Том 2, вы знаете вероятность (и случайные процессы); Это означает, что все, что вы не знаете, например, новые разработки, вы сможете быстро освоить и освоить, опираясь на эту прочную основу.

Почти все, что ранее упоминалось в этой теме, есть в издании Феллера, том 2 (не весь материал в расширенной теории статистики Кендалла, но чтение этой книги будет очень простым делом после книги Феллера, том 2), и многое, многое другое. таким образом, который должен развивать ваше стохастическое мышление и интуицию. Джонсон и Коц хорошо подходят для подробностей о различных распределениях вероятностей, Феллер Том 2 полезен для изучения вероятностного мышления, а также для понимания того, что можно извлечь из данных Джонсона и Коца и как их использовать.


2

Просто чтобы добавить к другим отличные ответы.

npλ=npостается постоянным, ограниченным от нуля и бесконечности. Это говорит нам о том, что это полезно, когда у нас есть большое количество индивидуально невероятных событий. Вот несколько хороших примеров: несчастные случаи, такие как количество автомобильных аварий в Нью-Йорке за день, поскольку каждый раз, когда проезжает / встречается два автомобиля, вероятность аварии очень мала, и количество таких возможностей действительно астрономическое! Теперь вы сами можете подумать о других примерах, таких как общее количество авиакатастроф в мире за год. Классический пример, где количество смертей от лошадиных сил в Прусской кавалерии!

np(1p)p1pnpλpp


0

Недавно опубликованное исследованиепредполагает, что человеческая деятельность не является нормально распределенной, вопреки распространенному мнению. Были проанализированы данные из четырех областей: (1) Академика в 50 дисциплинах, основанная на частоте публикаций в наиболее выдающихся журналах по конкретным дисциплинам. (2) артисты, такие как актеры, музыканты и писатели, а также количество полученных престижных наград, номинаций или отличий. (3) Политики в 10 странах и результаты выборов / перевыборов. (4) Учащиеся и профессиональные спортсмены рассматривают самые индивидуальные доступные меры, такие как количество хоум-ранов, приемы в командных видах спорта и общие победы в отдельных видах спорта. Автор пишет: «Мы видели четкое и непротиворечивое распределение степенных законов в каждом исследовании, независимо от того, насколько узко или широко мы проанализировали данные ...»


4
Кто предположил, что человеческая деятельность нормально распределена ?! Принцип 80-20 был предложен Парето (1906!).
abaumann
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.