Как рассчитать уровень достоверности для распределения Пуассона?

32

Хотелось бы узнать, насколько уверенно я могу быть в своем . Кто-нибудь знает способ установить верхний и нижний уровни достоверности для распределения Пуассона? $\lambda$

Наблюдения ( ) = 88 $n$
Среднее значение по выборке ( ) = 47,18182 $\lambda$

как будет выглядеть 95% уверенность в этом?

poisson-distribution confidence-interval

— Travis
источник

Вы также можете рассмотреть возможность загрузки своих оценок. Вот краткое руководство по начальной загрузке.

— Марк Т Паттерсон

27

Для Пуассона среднее значение и дисперсия являются . Если вам нужен доверительный интервал вокруг лямбды, вы можете рассчитать стандартную ошибку как $\lambda$ . $\sqrt{\lambda / n}$

95-процентный доверительный интервал . $\hat{\lambda} \pm 1.96\sqrt{\hat{\lambda} / n}$

— Ник Стаунер
источник

26

n λ

$n \lambda$

n λ = 4152

$n \lambda = 4152$

4

Для других смущенных, как я был: вот описание, откуда берется 1.96.

— Мджибсон

2

Как вы рассчитали точный интервал для этой проблемы, учитывая информацию на этом веб-сайте, предоставленную whuber? Я не мог следить, потому что этот сайт, кажется, только показывает, как действовать, когда у вас есть один образец. Возможно, я просто не понимаю что-то простое, но в моем дистрибутиве значение lambda (n) намного меньше, поэтому я не могу использовать нормальное приближение и не знаю, как вычислить точное значение. Любая помощь будет принята с благодарностью. Благодарность!

Здесь они используют стандартное отклонение от среднего, верно? То есть SE = sig/sqrt(N) = sqrt(lam/N)? Это имело бы смысл, поскольку стандартное отклонение отдельных значений sigговорит нам о вероятности получения случайных выборок из распределения Пуассона, в то время SEкак, как определено выше, говорит нам о нашей достоверности lam, учитывая количество выборок, которые мы использовали для его оценки.

— AlexG

17

В этой статье рассматриваются 19 различных способов вычисления доверительного интервала для среднего распределения Пуассона.

http://www.ine.pt/revstat/pdf/rs120203.pdf

— Том
источник

2

Несмотря на уведомление мода, мне нравится этот ответ «как есть», потому что он указывает на то, что общее мнение о том, как оценивать измеренную пуассоновскую систему, меньше, чем общее мнение.

— Карл Виттофт

7

В дополнение к ответам, которые предоставили другие, другой подход к этой проблеме достигается через модельный подход. Подход с использованием центральной предельной теоремы, безусловно, действителен, и начальные оценки обеспечивают большую защиту от проблем с ошибками в выборке и режиме.

$\lambda$

x <- rpois(100, 14)
exp(confint(glm(x ~ 1, family=poisson)))

Заметьте, что это несимметричная интервальная оценка, поскольку естественным параметром коэффициента Пуассона glm является относительная логарифмическая скорость! Это является преимуществом, поскольку существует тенденция к перекосу данных подсчета вправо.

Вышеуказанный подход имеет формулу и он:

\exp (\log \hat{λ} \pm \sqrt{\frac{1}{n \hat{λ}}})

$\exp\left( \log \hat{\lambda} \pm \sqrt{\frac{1}{n\hat{\lambda} }}\right)$

Этот доверительный интервал является «эффективным» в том смысле, что он основан на оценке максимального правдоподобия по шкале естественных параметров (log) для данных Пуассона, и обеспечивает более узкий доверительный интервал, чем интервал, основанный на шкале подсчета, при сохранении номинального охвата 95% ,

— Adamo
источник

+1 Я думаю, что я бы использовал другое прилагательное, чем эффективность (или, если быть более точным, вы имеете в виду вычислительную эффективность или эффективность кода). Комментарий Вубера указывает на ресурс, который дает точные интервалы, а подход glm также основан на асимптотических результатах. (Это более общий подход, поэтому я также рекомендую этот подход.)

— Энди В.

μ

$\mu$

1

Каков ваш авторитет для этой формулы. Можем ли мы привести цитату?

— pauljohn32

@AndyW: ваша ссылка недействительна для быстрого моделирования

— pauljohn32,

1

@ pauljohn32 посмотрите текст Каселлы Бергер, особенно об экспоненциальном семействе, логарифм является естественным параметром.

— AdamO

5

Учитывая наблюдение из распределения Пуассона ,

количество подсчитанных событий равно n.
$\lambda$ $\sigma^2$

Шаг за шагом,

$\hat \lambda = n \approx \lambda$
$n \gt 20$ $\sigma$

s t d e r r = σ = \sqrt{λ} \approx \sqrt{n}

$stderr = \sigma = \sqrt{\lambda} \approx \sqrt{n}$

Теперь, 95% доверительный интервал является,

I = \hat{λ} \pm 1.96 s t d e r r = n \pm 1.96 \sqrt{n}

$I = \hat \lambda \pm 1.96 \space stderr = n \pm 1.96 \space \sqrt{n}$

[Отредактировано] Некоторые расчеты на основе данных вопроса,

$\lambda$

Я делаю это предположение, так как первоначальный вопрос не дает никакого контекста об эксперименте или о том, как были получены данные (что крайне важно при манипулировании статистическими данными).
95% доверительный интервал для конкретного случая

I = λ \pm 1.96 s t d e r r = λ \pm 1.96 \sqrt{λ} = 47.18182 \pm 1.96 \sqrt{47.18182} \approx [33.72, 60.64]

$I = \lambda \pm 1.96 \space stderr = \lambda \pm 1.96 \space \sqrt{\lambda} = 47.18182 \pm 1.96 \space \sqrt{47.18182} \approx [33.72, 60.64]$

Следовательно, поскольку измерение (n = 88 событий) выходит за пределы доверительного интервала 95%, мы заключаем, что

Процесс не следует пуассоновскому процессу или
$\lambda$

$\sqrt{\lambda/n}$

— jose.angel.jimenez
источник

1

λ

$\lambda$

n \approx λ

$n\approx\lambda$

2

λ

$\lambda$

λ

$\lambda$

2

Я полагаю, что ответ jose.angel.jiminez выше неправильный и возникает из-за неправильного прочтения исходного вопроса. Оригинальный плакат гласил: «Наблюдения (n) = 88» - это было количество наблюдаемых временных интервалов, а не количество наблюдаемых событий в целом или за интервал. Среднее число событий за интервал, за выборку из 88 интервалов наблюдения, представляет собой лямбду, заданную оригинальным постером. (Я бы включил это в качестве комментария к посту Хосе, но я слишком новичок на сайте, чтобы его можно было комментировать.)

— user44436

@ user44436 добавил ответ, который должен был быть комментарием. Я разместил его в виде комментария, чтобы вы могли его увидеть, и потому что в качестве неответа он может быть удален: ------- Я считаю, что ответ на вышеприведенный вопрос является неправильным и возникает из-за неправильного прочтения исходного вопроса. Первоначальный плакат гласил «Наблюдения» (n) = 88 - это было количество наблюдаемых временных интервалов, а не количество событий, наблюдаемых в целом или за интервал. Среднее число событий за интервал в выборке из 88 интервалов наблюдения - это лямбда, заданная оригинальным постером.

— Мёрре