Интервалы прогнозирования и толерантности

У меня есть пара вопросов для прогнозирования и интервалов терпимости.

Давайте сначала договоримся об определении интервалов толерантности: нам дают уровень достоверности, скажем, 90%, процент населения, подлежащего отбору, скажем, 99%, и размер выборки, скажем, 20. Распределение вероятностей известно, скажем, нормально для удобства. Теперь, учитывая вышеприведенные три числа (90%, 99% и 20) и тот факт, что базовое распределение является нормальным, мы можем вычислить число допусков . Для выборки со средним значением и стандартным отклонением интервал допуска составляет . Если этот интервал допуска охватывает 99% населения, то выборка называется успешной $k$ $(x_1,x_2,\ldots,x_{20})$ $\bar{x}$ $s$ $\bar{x}\pm ks$ $(x_1,x_2,\ldots,x_{20})$ и требование состоит в том, чтобы 90% образцов были успешными .

Комментарий: 90% - это априорная вероятность успеха образца. 99% - это условная вероятность того, что будущее наблюдение будет в интервале допуска, учитывая, что выборка является успешной.

Мои вопросы: можем ли мы видеть интервалы предсказания как интервалы терпимости? Просматривая в Интернете, я получил противоречивые ответы на этот вопрос, не говоря уже о том, что никто точно не определил интервалы прогнозирования. Итак, если у вас есть точное определение интервала прогнозирования (или ссылка), я был бы признателен.

Я понял, что интервал прогнозирования 99%, например, не охватывает 99% всех будущих значений для всех выборок. Это будет то же самое, что и интервал допуска, который охватывает 99% населения с вероятностью 100%.

В определениях, которые я нашел для 90% -ного интервала прогнозирования, 90% - это априорная вероятность для данной выборки, скажем, (размер фиксирован) и одно будущее наблюдение , которое будет в интервале прогнозирования. Таким образом, кажется, что и выборка, и будущая стоимость даются одновременно, в отличие от интервала допуска, где предоставляется выборка, и с определенной вероятностью это успех , и при условии, что выборка успех $(x_1,x_2,\ldots,x_{20})$ $y$ $y$ определяется будущее значение и с определенной вероятностью попадает в интервал допуска. Я не уверен, является ли приведенное выше определение интервала предсказания правильным или нет, но оно кажется нелогичным (по крайней мере).

Любая помощь?

prediction prediction-interval tolerance-interval

— Иоаннис Соулдатос
источник

Односторонние интервалы допуска для нормальной выборки могут помочь в понимании этого понятия. Верхняя граница допуска

является ничем иным, как верхней доверительной границей

квантиля предполагаемого распределения модели. Поэтому в случае нормального распределения это верхняя доверительная граница параметра

где

составляет

от стандартного распределения Гаусса.

99 %

$99\%$

99 %

$99\%$

μ + k σ

$\mu + k\sigma$

k = z_{99 %}

$k=z_{99\%}$

99 %

$99\%$

— Стефан Лоран

Это хорошая переформулировка, Стефан, потому что она сразу показывает, что есть несколько видов допустимых пределов: можно запросить верхний доверительный предел для

, для более низкого доверительного предела для

или для ( скажем) объективная оценка этого параметра. Все три в литературе называются «пределами толерантности».

μ + z_{0.99} σ

$\mu + z_{0.99}\sigma$

μ + z_{0.99} σ

$\mu + z_{0.99}\sigma$

— whuber

Я думаю, что вы скорее хотели бы сказать более низкий доверительный интервал для

μ - z_{0.99} σ

$\mu - z_{0.99}\sigma$

— Стефан Лоран

На самом деле, нет, Стефан (именно поэтому я позаботился о том, чтобы повторить формулу для параметра). Есть также три аналогичных определения для нижнего предела допуска. Например, мы могли бы под -оценкой верхней 99 - й процентиль населения, но контролировать количество недооценки мы настаиваем там быть (скажем) на 5% вероятность того, что наша занижена еще будет слишком высокой. Это позволит нам сказать что-то вроде: «Данные показывают, с уверенностью 95%, что 99-й процентиль населения превышает такую-то величину».

— whuber

Ответы:

Ваши определения кажутся правильными.

Книга консультируйтесь этих вопросах Интервалы статистический (Gerald Hahn & William Meeker), 1991. Я цитирую:

Интервал прогнозирования для одного будущего наблюдения - это интервал, который с заданной степенью достоверности будет содержать следующее (или другое заранее заданное) случайно выбранное наблюдение из популяции.

[A] интервал толерантности - это интервал, который, как можно утверждать, содержит, по меньшей мере, определенную долю p популяции с заданной степенью достоверности . $100(1-\alpha)\%$

Вот пересказ в стандартной математической терминологии. Пусть данные считаются реализацией независимых случайных величин с общей интегральной функцией распределения . ( является напоминанием о том, что может быть неизвестным, но предполагается, что он лежит в данном наборе распределений ). Пусть $\mathbf{x}=(x_1,\ldots,x_n)$ $\mathbf{X}=(X_1,\ldots,X_n)$ $F_\theta$ $\theta$ $F$ ${F_\theta \vert \theta \in \Theta}$ $X_0$ быть другой случайной величиной с тем же распределением и независимым от первых переменных. $F_\theta$ $n$

Интервал предсказания (для одного наблюдения в будущем), определяется конечными точками , имеет определяющее свойство , что $[l(\mathbf{x}), u(\mathbf{x})]$

$inf_{θ} {{Pr}_{θ} (X_{0} \in [l (X), u (X)])} = 100 (1 - α) % .$ $\inf_\theta\{{\Pr}_\theta(X_0 \in [l(\mathbf{X}), u(\mathbf{X})])\}= 100(1-\alpha)\%.$
В частности, относится к распределению переменных определяемому по закону . Обратите внимание на отсутствие каких-либо условных вероятностей: это полная совместная вероятность. Также обратите внимание на отсутствие какой-либо ссылки на временную последовательность: очень хорошо может наблюдаться во времени перед другими значениями. Это не имеет значения. ${\Pr}_\theta$ $n+1$ $(X_0, X_1, \ldots, X_n)$ $F_\theta$ $X_0$

Я не уверен, какой аспект (ы) этого может быть "нелогичным". Если мы планируем выбрать статистическую процедуру в качестве действия, которое необходимо выполнить перед сбором данных, то это естественная и разумная формулировка запланированного двухэтапного процесса, потому что оба данных ( ) и «будущее значение» должно быть смоделировано как случайное. $X_i, i=1,\ldots,n$ $X_0$
Интервал допуска, определяется конечными точками , имеет определяющее свойство , что $(L(\mathbf{x}), U(\mathbf{x})]$

$inf_{θ} {{Pr}_{θ} (F_{θ} (U (X)) - F_{θ} (L (X)) \geq p)} = 100 (1 - α) % .$ $\inf_\theta\{{\Pr}_\theta\left(F_\theta(U(\mathbf{X})) - F_\theta(L(\mathbf{X})\right) \ge p)\} = 100(1-\alpha)\%.$
Обратите внимание на отсутствие какой-либо ссылки на : это не играет никакой роли. $X_0$

Когда является множеством нормальных распределений, существуют интервалы прогнозирования в форме $\{F_\theta\}$

L (Икс) знак равно \bar{Икс} - К (α, N) s, U (Икс) знак равно \bar{Икс} + К (α, N) s

$l(\mathbf{x}) = \bar{x} - k(\alpha, n) s, \quad u(\mathbf{x}) = \bar{x} + k(\alpha, n) s$

( - среднее значение по выборке, а - стандартное отклонение по выборке). Значения функции , которые табулируют Hahn & Meeker, не зависят от данных . Существуют и другие процедуры интервалов прогнозирования, даже в нормальном случае: они не единственные. $\bar{x}$ $s$ $k$ $\mathbf{x}$

Точно так же существуют интервалы допуска формы

L (Икс) знак равно \bar{Икс} - К (α, N, п) s, U (Икс) знак равно \bar{Икс} + К (α, N, п) s,

$L(\mathbf{x}) = \bar{x} - K(\alpha, n, p) s, \quad U(\mathbf{x}) = \bar{x} + K(\alpha, n, p) s.$

Существуют и другие процедуры интервала допуска : они не единственные.

Отмечая сходство между этими парами формул, мы можем решить уравнение

К (α, N) знак равно К (α^{'}, N, п),

$k(\alpha, n) = K(\alpha', n, p).$

$\alpha'$ $p$ $\alpha$ $\alpha'$ $p$

— Whuber
источник

Путаница между этими интервалами реальна. Десять лет назад у меня было несколько трудных разговоров с государственным статистиком, который не знал о разнице и (яростно) не мог ее распознать. Ее выдающаяся роль в создании руководства, проверке отчетов, консультировании сотрудников, распространении программного обеспечения и даже рецензируемой публикации способствовала продолжению этих заблуждений. Так что будьте осторожны!

— whuber

Очень хороший ответ, спасибо. Я был уверен, что некоторые статистики говорят, что интервал прогнозирования - это интервал допуска с

. Есть ли реальный факт за эту идею? Другими словами, правда ли, что

или что-то в этом роде?

p = 50 %

$p=50\%$

k (α, n) = K (α, n, 0.5)

$k(\alpha,n)=K(\alpha,n,0.5)$

— Стефан Лоран

n

$n$

p = 50 %

$p=50\%$

X_{0}

$X_0$

k (α, n) \approx K (50 %, n, 1 - α)

$\boxed{k(\alpha,n) \approx K(50\%,n,1-\alpha)}$

n

$n$

K

$K$

50 %

$50\%$

z_{1 - α} / \sqrt{n}

$z_{1-\alpha}/\sqrt{n}$

@whuber. Спасибо за ответ. Я должен убедиться, что я понимаю это, прежде чем я отмечу это правильно. Дайте мне немного времени, чтобы "переварить" это.

— Иоаннис Соулдатос

$K(\alpha,p)$

— Скотт П.
источник