Почему время выживания считается экспоненциально распределенным?

36

Из этого поста я изучаю анализ выживания в UCLA IDRE, и меня обвинили в разделе 1.2.1. Учебник говорит:

... если было известно, что времена выживания экспоненциально распределены , то вероятность наблюдения времени выживания ...

Почему время выживания считается экспоненциально распределенным? Это кажется очень неестественным для меня.

Почему не распространяется нормально? Скажем, предположим, что мы исследуем продолжительность жизни какого-то существа при определенных условиях (скажем, число дней), должно ли оно быть больше вокруг некоторого числа с некоторой дисперсией (скажем, 100 дней с дисперсией 3 дня)?

Если мы хотим, чтобы время было строго положительным, почему бы не сделать нормальное распределение с более высоким средним и очень малой дисперсией (почти не будет шансов получить отрицательное число?)?

— Haitao Du
источник

9

Эвристически, я не могу думать о нормальном распределении как об интуитивном способе моделирования времени отказа. Это никогда не возникало ни в одной из моих прикладных работ. Они всегда искажены очень далеко справа. Я думаю, что нормальные распределения эвристически возникают как средние значения, тогда как времена выживания эвристически возникают как экстремумы, такие как эффект постоянной опасности, применяемой к последовательности параллельных или последовательных компонентов.

— AdamO

6

Я согласен с @AdamO относительно экстремальных распределений, присущих выживанию и времени до отказа. Как уже отмечалось, экспоненциальные предположения имеют преимущество в том, что они поддаются проверке. Самая большая проблема с ними - неявное предположение о постоянной скорости распада. Возможны другие функциональные формы, которые входят в стандартную комплектацию в зависимости от программного обеспечения, например, обобщенная гамма. Для проверки различных функциональных форм и допущений можно использовать тесты на соответствие. Лучший текст по моделированию выживания - это Анализ выживания Пола Эллисона с использованием SAS, 2-е изд. Забудь о SAS - это отличный обзор

— Майк Хантер

8

Я хотел бы отметить, что самым первым словом в вашей цитате является « если »

— Fomite

41

Экспоненциальные распределения часто используются для моделирования времени выживания, поскольку они являются простейшими распределениями, которые можно использовать для характеристики данных о выживаемости / надежности. Это связано с тем, что они не имеют памяти, и, таким образом, функция опасности постоянна по времени, что делает анализ очень простым. Такое предположение может быть допустимо, например, для некоторых видов электронных компонентов, таких как высококачественные интегральные схемы. Я уверен, что вы можете придумать и другие примеры, когда можно предположить, что влияние времени на опасность незначительно.

Тем не менее, вы правильно заметили, что во многих случаях это неверное предположение. Нормальные распределения могут быть хорошими в некоторых ситуациях, хотя очевидно, что отрицательные времена выживания не имеют смысла. По этой причине часто рассматриваются логнормальные распределения. Другие распространенные варианты включают Вейбулла, Наименьшее экстремальное значение, Наибольшее экстремальное значение, Логистика и т. Д. Разумный выбор модели будет зависеть от опыта предметной области и построения вероятности . Вы также можете, конечно, рассмотреть непараметрическое моделирование.

Хорошая ссылка для классического параметрического моделирования в анализе выживаемости: Уильям К. Микер и Луис Эскобар (1998). Статистические методы для данных о надежности , Wiley

— klumbard
источник

Не могли бы вы более подробно остановиться на том, что «функция опасности постоянна в течение времени r / t»?

— Haitao Du

4

@ hxd1011: Предположительно под «функцией опасности» автор ссылается на функцию

заданную как

, где

- это pdf для

и

представляет собой хвост

(

r_{X}

$r_X$

r_{X} (t) = f_{X} (t) / {\bar{F}}_{X} (t)

$r_X(t) = f_X(t) / \bar F_X(t)$

f_{X}

$f_X$

X

$X$

{\bar{F}}_{X}

$\bar F_X$

X

$X$

). Это также называетсячастотой отказов. Наблюдение состоит в том, что для

частота отказов равна

, что является постоянной величиной. Кроме того, нетрудно показать, чтотолькоэкспоненциальное распределение обладает этим свойством.

{\bar{F}}_{X} (t) = 1 - F_{X} (t) = \int_{t}^{\infty} f_{X} (x) d x

$\bar F_X(t) = 1 - F_X(t) = \int_t^\infty f_X(x) \, dx$

Exp (λ)

$\operatorname{Exp}(\lambda)$

r (t) = (λ e^{- λ t}) / (e^{- λ t}) = λ

$r(t) =(\lambda e^{-\lambda t}) / (e^{-\lambda t}) = \lambda$

— wchargin

22

Чтобы добавить немного математической интуиции о том, как показатели появляются в распределениях выживания:

Плотность вероятности переменной выживаемости равна , где - текущая опасность (риск для человека «умереть» в этот день), а - вероятность того, что человек дожил до . можно расширить как вероятность того, что человек пережил день 1, а пережил день 2, ... до дня . Тогда: $f(t) = h(t)S(t)$ $h(t)$ $S(t)$ $t$ $S(t)$ $t$ С Постоянная и малая опасность , мы можем использовать:

P (s u r v i v e d d a y t) = 1 - h (t)

$P(survived\ day\ t)=1-h(t)$

P (s u r v i v e d d a y s 1, 2, . . ., t) = (1 - h (t))^{t}

$P(survived\ days\ 1, 2, ..., t) = (1-h(t))^t$

λ

$\lambda$

для аппроксимации

просто

, и тогда плотность вероятности равна

e^{- λ} \approx 1 - λ

$e^{-\lambda} \approx 1-\lambda$

S (t)

$S(t)$

(1 - λ)^{t} \approx e^{- λ t}

$(1-\lambda)^t \approx e^{-\lambda t}$

f (t) = h (t) S (t) = λ e^{- λ t}

$f(t) = h(t)S(t) = \lambda e^{-\lambda t}$

Отказ от ответственности: это ни в коем случае не попытка правильного получения PDF - я просто решил, что это аккуратное совпадение, и приветствую любые комментарии о том, почему это правильно / неправильно.

РЕДАКТИРОВАТЬ: изменил аппроксимацию за совет @SamT, см. Комментарии для обсуждения.

— juod
источник

1

+1 это помогло мне понять больше о свойствах экспоненциального распределения.

— Haitao Du

1

S (t) = . . .

$S(t) = ...$

t

$t$

λ

$\lambda$

t

$t$

(1 + x / n)^{n} e^{x}

$(1+x/n)^n ~ e^{x}$

x = o (\sqrt{n})

$x = o(\sqrt{n})$

lim_{t \to \infty} (1 - λ t / t)^{t} = e^{- λ t}

$\lim_{t \to \infty} (1-\lambda t/t)^t = e^{-\lambda t}$

t

$t$

t

$t$

λ

$\lambda$

1

λ

$\lambda$

λ t

$\lambda t$

(1 + x / n)^{n} \approx e^{x}

$(1+x/n)^n \approx e^x$

λ

$\lambda$

e^{- λ t} = (e^{- λ})^{t} \approx (1 - λ)^{t} .

$e^{-\lambda t} = \big(e^{-\lambda}\big)^t \approx \big(1-\lambda)^t.$

λ = λ t / t

$\lambda = \lambda t / t$

e^{- λ t} \approx (1 - λ t / t)^{t} .

$e^{-\lambda t} \approx \big(1 - \lambda t / t\big)^t.$

При применении вы можете почувствовать, что это слегка придирчиво, но дело в том, что аргументация была неверной; Подобные неверные шаги могут не соответствовать действительности. Конечно, как кто-то подал заявку, вы можете быть счастливы сделать этот шаг, найти его в большинстве случаев и не беспокоиться о специфике! Как тот, кто занимается чистой математикой, для меня это не подлежит обсуждению, но я понимаю, что нам нужно и чистое, и прикладное! (И особенно в статистике, хорошо не увязнуть в технических

— Сэм Т

11

Вы почти наверняка захотите взглянуть на надежность и прогнозы для тщательного анализа времени выживания. В этом есть несколько дистрибутивов, которые часто используются:

Распределение Вейбулла (или «ванны») является наиболее сложным. Он учитывает три типа режимов отказов, которые преобладают в разных возрастах: младенческая смертность (где дефектные детали ломаются на ранних стадиях), индуцированные отказы (где детали ломаются случайным образом в течение всего срока службы системы) и износ (где детали ломаются от использование). При использовании он имеет PDF, который выглядит как "\ __ /". В частности, для некоторых электронных устройств вы можете услышать о временах «прожигания», что означает, что эти детали уже прошли через «\» часть кривой, и ранние отказы были отсеяны (в идеале). К сожалению, анализ Вейбулла быстро ломаетсяесли ваши детали не являются однородными (включая среду использования!) или если вы используете их в разных временных масштабах (например, если некоторые детали переходят в непосредственное использование, а другие отправляются в хранилище первыми, частота «случайных отказов» будет существенно отличаться из-за смешивания двух измерений времени (часы работы и часы использования).

Нормальные распределения почти всегда неверны. Каждое нормальное распределение имеет отрицательные значения, а распределение надежности - нет. Иногда они могут быть полезным приближением, но в тех случаях, когда это так, вы почти всегда смотрите на нормальное логарифм, так что вы можете просто использовать правильный дистрибутив. Логарифмически нормальные распределения правильно используются, когда у вас есть некоторый износ и незначительные случайные сбои, и ни при каких других обстоятельствах! Как и нормальное распределение, они достаточно гибки, чтобы вы могли заставить их соответствовать большинству данных; Вы должны сопротивляться этому побуждению и проверить, что обстоятельства имеют смысл.

Наконец, экспоненциальное распределение - настоящая рабочая лошадка. Вы часто не знаете, каковы старые детали (например, когда детали не сериализуются и имеют разное время, когда они вводятся в эксплуатацию), поэтому любое распределение на основе памяти отсутствует. Кроме того, у многих деталей время износа настолько произвольно, что оно либо полностью подчинено вызванным отказам, либо выходит за пределы полезных временных рамок анализа. Так что, хотя она может быть не такой совершенной моделью, как другие дистрибутивы, ей просто наплевать на вещи, которые их запутывают. Если у вас есть MTTF (количество времени / количества ошибок), у вас есть экспоненциальное распределение. Кроме того, вам не нужно никакого физического понимания вашей системы. Вы можете делать экспоненциальные оценки простооснованные на наблюдаемой части MTTFs (при условии достаточно большой выборки), и они получаются довольно чертовски близко. Это также устойчиво к причинам: если каждый второй месяц кому-то становится скучно и он играет в крокет с какой-то ролью до тех пор, пока она не сломается, экспоненциально это объясняется (она попадает в MTTF). Экспонента также достаточно проста, так что вы можете выполнять расчеты за пределами конверта для обеспечения доступности избыточных систем и т. Д., Что значительно повышает их полезность.

— фектин - свободная моника
источник

3

Это хороший ответ, но обратите внимание, что распределение Вейбулла не является «самым сложным» параметрическим распределением для моделей выживания. Я не уверен, что может быть такая вещь, но, безусловно, относительно Вейбулла есть обобщенное гамма-распределение и обобщенное F-распределение , оба из которых могут принять Вейбулла как особый случай, установив параметры в 0.

— gung - Восстановить Монику

Это самый сложный метод, обычно используемый в разработке надежности (первый абзац :). Я не согласен с вашей точкой зрения, но я также никогда не видел ни одного из них, использованных в действительности (описания того, как их можно использовать, да. Фактическая реализация, нет )

— фектин - свободный Моника

9

Чтобы ответить на ваш явный вопрос, вы не можете использовать нормальное распределение для выживания, потому что нормальное распределение уходит в отрицательную бесконечность, а выживание строго неотрицательно. Более того, я не думаю, что это правда, что «время выживания предполагается экспоненциально распределенным» кем-либо в реальности.

$z$ $t$

$>1$ $<1$

Чаще всего распределения по выживанию являются сложными и не подходят ни для одного из названных распределений. Люди, как правило, даже не пытаются выяснить, какое это может быть распределение. Это то, что делает модель пропорциональных рисков Кокса настолько популярной: она полупараметрическая в том смысле, что базовый риск можно оставить совершенно неопределенным, а остальная часть модели может быть параметрической с точки зрения ее связи с неопределенным базовым уровнем.

— Gung - Восстановить Монику
источник

4

«Более того, я не думаю, что это правда, что« времена выживания предполагаются экспоненциально распределенными »кем-либо в реальности». Я на самом деле обнаружил, что это довольно распространено в эпидемиологии, обычно неявно.

— Fomite

1

@ gung, не могли бы вы объяснить - это полупараметрический параметр, в котором базовая опасность может быть оставлена полностью неопределенной, но остальная часть модели может быть параметрической с точки зрения ее связи с неопределенным базовым уровнем

— Гаурав Сингхал

7

Некоторая экология может помочь ответить на вопрос «почему», стоящий за этим вопросом.

Причина, по которой экспоненциальное распределение используется для моделирования выживания, заключается в жизненных стратегиях, связанных с организмами, живущими в природе. Существуют две крайности в отношении стратегии выживания с некоторым пространством для середины.

Вот изображение, которое иллюстрирует, что я имею в виду (любезно предоставлено Khan Academy):

На этом графике показаны выжившие особи по оси Y и «процент от максимальной ожидаемой продолжительности жизни» (или аппроксимация возраста индивидуума) по оси X.

Тип I - это люди, которые моделируют организмы, которые чрезвычайно заботятся о своем потомстве, обеспечивая очень низкую младенческую смертность. Часто у этих видов очень мало потомства, потому что каждый из них отнимает у родителей много времени и сил. Большинство из того, что убивает организмы типа I, - это тип осложнений, возникающих в пожилом возрасте. Стратегия здесь заключается в высоких инвестициях для высокой отдачи в долгой и продуктивной жизни, хотя и за счет огромного количества.

И наоборот, тип III моделируется деревьями (но также могут быть планктон, кораллы, нерестовые рыбы, многие виды насекомых и т. Д.), Где родитель вкладывает относительно мало в каждого потомства, но производит тонну из них в надежде, что немногие выжить. Стратегия здесь заключается в том, чтобы «распылять и молиться», надеясь, что, хотя большинство потомков будут относительно быстро уничтожаться хищниками, пользующимися легкой добычей, тем немногим, кто выживает достаточно долго, чтобы расти, становится все труднее убивать, в конечном итоге становится (практически) невозможно съедено. Все время эти особи производят огромное количество потомков в надежде, что некоторые из них также доживут до своего возраста.

Тип II - это стратегия среднего уровня с умеренными родительскими инвестициями для умеренной выживаемости в любом возрасте.

У меня был профессор экологии, который выразил это так:

«Тип III (деревья) - это« Кривая надежды », потому что чем дольше человек выживает, тем больше вероятность того, что он будет продолжать существовать. Между тем Тип I (люди) является« Кривой отчаяния », потому что чем дольше ты живешь, тем более вероятно, что ты умрешь ".

— CaffeineConnoisseur
источник

Это интересно, но обратите внимание, что для людей до современной медицины (и до сих пор в некоторых местах в современном мире) детская смертность очень высока. Исходная выживаемость человека часто моделируется « опасностью для ванны ».

— gung - Восстановить Монику

@ gung Безусловно, это широкое обобщение, и существуют различия в людях разных регионов и периодов времени. Основное различие становится более ясным, когда вы сравниваете крайности, то есть западные человеческие семьи (~ 2,5 ребенка на пару, большинство из которых не умирают в младенчестве) по сравнению с кораллами или нерестовой рыбой (миллионы яиц выпущены за цикл спаривания, большинство из которых умереть из-за того, что его съели, умерли от голода, из-за химического состава воды или просто не смогли дрейфовать в пригодном для жизни месте)

— CaffeineConnoisseur

1

В то время как я полностью за объяснения из экологии, я отмечу, что предположения как это также сделаны для вещей как жесткие диски и авиационные двигатели.

— Fomite

6

Это не дает прямого ответа на вопрос, но я думаю, что это очень важно отметить, и не вписывается в один комментарий.

Хотя экспоненциальное распределение имеет очень хороший теоретический вывод, и, таким образом, предполагается, что полученные данные следуют механизмам, предполагаемым в экспоненциальном распределении, теоретически оно должно давать оптимальные оценки, но на практике мне еще не приходилось сталкиваться с набором данных, в котором экспоненциальное распределение дает даже близки к приемлемым результатам (конечно, это зависит от типов данных, которые я проанализировал, почти от всех биологических данных). Например, я только что посмотрел на подбор модели с различными дистрибутивами, используя первый набор данных, который я смог найти в своем R-пакете. Для проверки модели распределения базовой линии мы обычно сравниваем с полупараметрической моделью. Посмотрите на результаты.

Что касается распределения Вейбулла, логистического и логарифмического распределения, то не существует абсолютно четкого победителя с точки зрения надлежащего соответствия. Но есть явный неудачник: экспоненциальное распределение! По моему опыту, эта величина несоответствия является не исключительной, а скорее нормой экспоненциального распределения.

Зачем? Потому что экспоненциальное распределение - это семейство с одним параметром. Таким образом, если я укажу среднее значение этого распределения, я укажу все остальные моменты распределения. Эти другие семейства являются двумя семействами параметров. Таким образом, в этих семьях гораздо больше гибкости для адаптации к самим данным.

Теперь имейте в виду, что распределение Вейбулла имеет экспоненциальное распределение в качестве особого случая (то есть, когда параметр формы = 1). Таким образом, даже если данные действительно экспоненциальные, мы добавляем немного больше шума к нашим оценкам, используя распределение Вейбулла по экспоненциальному распределению. Поэтому я бы никогда не рекомендовал использовать экспоненциальное распределение для моделирования реальных данных (и мне любопытно услышать, есть ли у читателей пример того, когда это действительно хорошая идея).

— Клифф AB
источник

1

Я не убежден в этом ответе: 1) «используя первый набор данных, который я смог найти в моем R-пакете» ... Правда? ... на stats.stackexchange? Одна случайная выборка и мы делаем общие выводы? 1b) Для моделей, где время отказов имеет тенденцию распределяться вокруг определенного значения (например, жизни людей), очевидно, что распределения, такие как Gamma, Weibull и т. Д., Более подходят; когда события одинаково вероятны, экспоненциальное распределение больше подходит. Бьюсь об заклад, ваш «первый набор данных» выше первого типа. 2) Все остальные модели имеют 2 параметра, для сравнения следует использовать, например, коэффициент Байеса.

— Лука Сити

2

@LucaCiti: «первый набор данных в моем R-пакете» означает первый набор данных в R-пакете, который я опубликовал (icenReg). И я заметил, что мой опыт с экспоненциальным распределением, всегда плохо подходящим, зависел от типа данных, которые я проанализировал; почти исключительно биологические данные. Наконец, как я сказал в конце, мне очень любопытно услышать реальные прикладные примеры, в которых есть убедительная причина для использования экспоненциального распределения, поэтому, если у вас есть такой, пожалуйста, поделитесь.

— Клифф AB

1

Сценарий, когда вы можете захотеть использовать экспоненциальное распределение, будет, когда (а) у вас было много исторических данных, которые показали, что данные действительно были хорошо аппроксимированы экспоненциальным распределением, и (б) вам нужно было сделать вывод с небольшими выборками ( т.е. n <10). Но я не знаю ни одного реального приложения, подобного этому. Может быть, в какой-то проблеме контроля качества производства?

— Клифф А.Б.

1

Привет, Клифф, спасибо, что нашел время ответить на мой комментарий. Я думаю, грубо говоря, распределение, подобное Вейбуллу, подходит к лучшим ситуациям, соответствующим таким вопросам, как «каково время жизни отдельного х в моем образце» или «когда нейрон x снова сработает» или «когда светлячок x снова начнет мигать» ». И наоборот, экспоненциальное распределение моделирует такие вопросы, как «когда следующая смерть ожидается в моей популяции», «когда сработает следующий нейрон» или «когда вспыхнет светлячок в рое»

— Luca Citi

@LucaCiti; ха, только что понял, что твоя предыдущая попытка была шуткой о выводе с n = 1. Не знаю, как я пропустил это в первый раз. В мою защиту, если у нас есть теория, согласно которой оценщик должен быть асимптотически нормальным, но в то же время это 4+ стандартных отклонения от других асимптотически нормальных оценок, то мы можем! Но, если серьезно, меня убедил не тот заговор, а постоянное наблюдение одного и того же уровня отклонений. Я могу быть заблокирован, если я спам 20 + сюжеты плохих экспоненциальных совпадений, хотя.

— Клифф AB

4

Другая причина, по которой экспоненциальное распределение часто возникает до модельного интервала между событиями, заключается в следующем.

Хорошо известно, что при некоторых предположениях сумма большого числа независимых случайных величин будет близка к распределению Гаусса. Аналогичная теорема справедлива для процессов восстановления , то есть стохастических моделей для событий, которые происходят случайным образом во времени с интервалами между событиями IID. Фактически, теорема Пальма – Хинчина утверждает, что суперпозиция большого числа (не обязательно пуассоновских) процессов восстановления ведет себя асимптотически подобно пуассоновскому процессу . Интервалы между событиями пуассоновского процесса экспоненциально распределены.

— Лука Чити
источник

3

tl; dr - Экспоненциальное распределение эквивалентно предположению, что люди могут умереть в любой данный момент так же, как и любой другой.

отвлечение

Предположим, что живой человек может умереть в любой момент, как и в любой другой.
$-\frac{\text{d}P}{\text{d}t}$ $P$

- \frac{d P}{d t} \propto P

$-\frac{\text{d}P}{\text{d}t}{\space}{\propto}{\space}P$

Решаем на WolframAlpha шоу:

P (t) = c_{1} e^{- t}

$P\left(t\right)={c_1}{e^{-t}}$

Таким образом, население следует экспоненциальному распределению.

Математическая записка

$c_0$ $P\left(t_0\right)$ $t_0$

P (t) = e^{- t} P (t_{0}) .

$P\left(t\right)={e^{-t}}P\left({t_0}\right).$

Проверка на практике

Экспоненциальное распределение предполагает, что люди в населении имеют тенденцию умирать с той же скоростью в течение долгого времени. В действительности, смертность будет иметь тенденцию изменяться для конечных групп населения.

Для получения лучшего распределения используются стохастические дифференциальные уравнения . Тогда мы не можем сказать, что существует постоянная вероятность смерти; скорее, мы должны придумать распределение вероятностей смерти каждого человека в любой момент, затем объединить эти различные деревья возможностей вместе для всего населения, а затем решить это дифференциальное уравнение во времени.

Я не могу вспомнить, чтобы когда-либо видел это в Интернете, поэтому вы, вероятно, не столкнетесь с этим; но это следующий шаг моделирования, если вы хотите улучшить экспоненциальное распределение.

— натуральный
источник

3

(Обратите внимание, что в той части, которую вы цитировали, это утверждение было условным; само предложение не предполагало экспоненциального выживания, оно объясняло последствия этого. Тем не менее, предположение об экспоненциальном выживании распространено, поэтому стоит рассмотреть вопрос «почему экспоненциальный "и" почему не нормально "- поскольку первое уже довольно хорошо освещено, я остановлюсь больше на втором)

Нормально распределенные времена выживания не имеют смысла, потому что они имеют ненулевую вероятность того, что время выживания будет отрицательным.

Если вы затем ограничите свое рассмотрение нормальными распределениями, которые практически не имеют шансов приблизиться к нулю, вы не сможете смоделировать данные о выживании, которые имеют разумную вероятность короткого времени выживания:

Может быть, время от времени выживание, у которого почти нет шансов на короткое время выживания, было бы разумным, но вам нужны распределения, которые имеют смысл на практике - обычно вы наблюдаете короткое и длинное время выживания (и все, что между ними), с обычно перекошенным распределение времени выживания). Немодифицированное нормальное распределение редко будет полезно на практике.

[ Усеченная норма может чаще быть разумным приблизительным приближением, чем нормаль, но другие распределения часто будут лучше.]

Постоянная опасность экспоненты иногда является разумным приближением для времени выживания. Например, если «случайные события», такие как несчастный случай, являются основным фактором, влияющим на уровень смертности, экспоненциальное выживание будет работать довольно хорошо. (Например, среди популяций животных иногда и хищничество, и болезнь могут действовать, по крайней мере, примерно как случайный процесс, оставляя нечто вроде экспоненты в качестве разумного первого приближения к времени выживания.)

Еще один вопрос, связанный с усеченным нормальным: если нормальный не подходит, почему не нормальный квадрат (chi sq с df 1)?

В самом деле, это может быть немного лучше ... но обратите внимание, что это будет соответствовать бесконечной опасности в 0, так что это будет только иногда полезно. Несмотря на то, что он может моделировать случаи с очень высокой долей очень коротких периодов времени, у него есть обратная проблема, заключающаяся в том, что он способен только моделировать случаи с типично намного короче, чем средняя выживаемость (25% времени выживания ниже 10,15% среднего времени выживания половина времени выживания составляет менее 45,5% от среднего значения, то есть медиана выживаемости составляет менее половины среднего значения.)

$χ^2_1$ $\frac12$

$χ^2_1$ $χ^2$

— Glen_b - Восстановить Монику
источник

спасибо, я ждал вашего ответа со вчерашнего дня :). Еще один вопрос, связанный с усеченным нормальным: если нормальный не подходит, почему не нормальный квадрат (chi sq с df 1)?

— Haitao Du

χ_{1}^{2}

$\chi^2_1$

еще раз спасибо за воспитание моей интуиции за вещами. Я видел слишком много учебников на уровне рецептов, и люди делали вещи, не зная почему. Резюме - отличное место для изучения.

— Haitao Du

1

Если мы хотим, чтобы время было строго положительным, почему бы не сделать нормальное распределение с более высоким средним и очень малой дисперсией (почти не будет шансов получить отрицательное число?)?

Потому что

у этого все еще есть ненулевая вероятность быть отрицательным, таким образом это не строго положительно;
среднее значение и дисперсия - это то, что вы можете измерить из популяции, которую вы пытаетесь смоделировать. Если у вашего населения среднее значение 2 и дисперсия 1, а вы моделируете его с нормальным распределением, то это нормальное распределение будет иметь значительную массу ниже нуля; если вы моделируете его с нормальным распределением со средним значением 5 и дисперсией 0,1, ваша модель, очевидно, обладает очень разными свойствами по сравнению с тем, что она должна моделировать.

Нормальное распределение имеет особую форму, и эта форма симметрична относительно среднего. Единственный способ изменить форму - это переместить ее вправо и влево (увеличить или уменьшить среднее значение) или сделать ее более или менее разбросанной (увеличить или уменьшить дисперсию). Это означает, что единственный способ получить нормальное распределение, в котором большая часть массы находится между двумя и десятью, и лишь незначительное количество массы находится ниже нуля, необходимо указать среднее значение, скажем, шесть (середина диапазона ) и установите дисперсию достаточно малой, чтобы только крошечная доля выборок была отрицательной. Но тогда вы, вероятно, обнаружите, что большинство ваших сэмплов составляют 5, 6 или 7, тогда как у вас должно было быть достаточно много 2, 3, 4, 8, 9 и 10.

— Дэвид Ричерби
источник