Каково теоретико-обоснованное обоснование байесовских интервалов вероятности?

(Чтобы понять, почему я написал это, проверьте комментарии ниже моего ответа на этот вопрос .)

Ошибки типа III и теория статистических решений

Правильный ответ на неправильный вопрос иногда называют ошибкой типа III. Теория статистических решений - это формализация принятия решений в условиях неопределенности; это обеспечивает концептуальную структуру, которая может помочь избежать ошибок типа III. Ключевой элемент структуры называется функцией потерь . Он принимает два аргумента: первый - (соответствующее подмножество) истинного состояния мира (например, в задачах оценки параметров - истинное значение параметра $\theta$ ); второй является элементом в наборе возможных действий (например, в задачах оценки параметров, оценка $\hat{\theta})$ , Выходные данные моделируют потери, связанные с каждым возможным действием в отношении каждого возможного истинного состояния мира. Например, в задачах оценки параметров некоторые хорошо известные функции потерь:

абсолютная ошибка потери $L(\theta, \hat{\theta}) = |\theta - \hat{\theta}|$
квадратичная потеря ошибок $L(\theta, \hat{\theta}) = (\theta - \hat{\theta})^2$
Потеря LINEX Хэла Вариана $L(\theta, \hat{\theta}; k) = \exp(k(\theta - \hat{\theta})) - k(\theta - \hat{\theta}) - 1,\text{ } k \ne0$

Изучая ответ, чтобы найти вопрос

Есть случай, когда можно попытаться сделать так, чтобы ошибок типа III можно было избежать, сосредоточившись на формулировании правильной функции потерь и продолжении остального теоретического подхода (не детализированного здесь). Это не мое резюме - в конце концов, статистики хорошо оснащены многими методами и методами, которые работают хорошо, даже если они не являются производными от такого подхода. Но конечный результат, как мне кажется, заключается в том, что подавляющее большинство статистиков не знают и не заботятся о теории статистических решений, и я думаю, что они упускают из виду. Для этих статистиков я бы сказал, что причина, по которой они могут посчитать статистическую теорию принятия решений ценной с точки зрения избежания ошибки Типа III, заключается в том, что она обеспечивает структуру, в которой можно запрашивать любую предлагаемую процедуру анализа данных:с какой функцией потерь (если есть) процедура справляется оптимально? То есть, в какой ситуации принятия решений она дает наилучший ответ?

Задняя ожидаемая потеря

С байесовской точки зрения функция потерь - это все, что нам нужно. Мы можем в значительной степени пропустить остальную часть теории принятия решений - почти по определению, лучшее, что можно сделать, это минимизировать последующую ожидаемую потерю, то есть найти действие которое минимизирует . $a$ $\tilde{L}(a) = \int_{\Theta}L(\theta, a)p(\theta|D)d\theta$

(А что касается небайесовских перспектив? Что ж, это теорема теории принятия частых решений, в частности, полной теоремы Уолда о том, что оптимальным действием всегда будет минимизация байесовской апостериорной ожидаемой потери по отношению к некоторым (возможно, неправильным) сложность этого результата заключается в том, что эта теорема существования не дает указаний относительно того, какой из них использовать до этого, но она плодотворно ограничивает класс процедур, которые мы можем «инвертировать», чтобы точно определить, какой именно вопрос заключается в том, что мы В частности, первый шаг в инверсии любой не байесовской процедуры - выяснить, какую (если она есть) байесовскую процедуру она копирует или аппроксимирует.)

Эй, Сайан, ты знаешь, что это сайт вопросов и ответов, верно?

Что подводит меня - наконец - к статистическому вопросу. В байесовской статистике при предоставлении интервальных оценок для одномерных параметров используются две общие процедуры вероятного интервала: основанный на квантиле доверительный интервал и доверительный интервал с наибольшей апостериорной плотностью. Какие функции потери стоят за этими процедурами?

bayesian credible-interval decision-theory

— Cyan
источник

Очень хорошо. Но являются ли они единственными функциями потерь, оправдывающими эти процедуры?

— Гость

@Cyan >> Спасибо, что задали мне вопрос и ответили на него :) Я прочитаю все это и по возможности поддержу вас.

— Стефан Лоран

Интересная цитата из теории статистических решений Бержера и байесовского анализа : «мы не рассматриваем вероятные наборы как имеющие ясную теоретико-решающую роль, и поэтому опасаемся подходов« оптимальности »к выбору надежного набора»

— Саймон Бирн

@Simon Byrne >> 1985 год был давным-давно; Интересно, он все еще так думает?

— Cyan

@Cyan: Я не знаю, но теория принятия решений - это та часть байесовской статистики, которая не сильно изменилась за последние 27 лет (было несколько интересных результатов, но книга Бергера по-прежнему является стандартной ссылкой), особенно по сравнению с популярностью минимакс приводит к частой статистике.

— Саймон Бирн

Ответы:

При оценке одномерного интервала набор возможных действий представляет собой набор упорядоченных пар, определяющих конечные точки интервала. Пусть элемент этого множества представлен . $(a, b),\text{ } a \le b$

Самые высокие задние интервалы плотности

Пусть задняя плотность будет . Самые высокие интервалы апостериорной плотности соответствуют функции потерь, которая штрафует интервал, который не содержит истинного значения, а также штрафует интервалы пропорционально их длине: $f(\theta)$

, $L_{HPD}(\theta, (a, b); k) = I(\theta \notin [a, b]) + k(b – a), \text{} 0 < k \le max_{\theta} f(\theta)$

где - функция индикатора . Это дает ожидаемую потерю $I(\cdot)$

. $\tilde{L}_{HPD}((a, b); k) = 1 - \Pr(a \le \theta \le b|D) + k(b – a)$

Настройка дает необходимое условие для локального оптимума внутри пространства параметров:- точно правило для интервалов HPD, как и ожидалось. $\frac{\partial}{\partial a}\tilde{L}_{HPD} = \frac{\partial}{\partial b}\tilde{L}_{HPD} = 0$ $f(a) = f(b) = k$

Форма дает некоторое представление о том, почему интервалы HPD не инвариантны к монотонно возрастающему преобразованию параметра. -пространства ОПДА интервал преобразуется в пространство отличается от -пространство ОПД интервал , так как два интервала соответствует различным функциям потерь: при регистрации $\tilde{L}_{HPD}((a, b); k)$ $g(\theta)$ $\theta$ $g(\theta)$ $g(\theta)$ $g(\theta)$ интервал HPD в пространстве соответствует преобразованному штрафу за длину . $k(g(b) – g(a))$

Основанные на квантиле вероятные интервалы

Рассмотрим точечную оценку с помощью функции потерь

, $L_q(\theta, \hat{\theta};p) = p(\hat{\theta} - \theta)I(\theta < \hat{\theta}) + (1-p)(\theta - \hat{\theta})I(\theta \ge \hat{\theta}), \text{ } 0 \le p \le 1$

Задняя ожидаемая потеря

$\tilde{L}_q(\hat{\theta};p)=p(\hat{\theta}-\text{E}(\theta|\theta < \hat{\theta}, D)) + (1 - p)(\text{E}(\theta | \theta \ge \hat{\theta}, D)-\hat{\theta})$

$\frac{d}{d\hat{\theta}}\tilde{L}_q=0$

, $\Pr(\theta < \hat{\theta}|D) = p$

то есть, оптимальная является % квантиль заднего распределения, как и ожидалось. $\hat{\theta}$ $(100p)$

Таким образом, чтобы получить основанные на квантиле интервальные оценки, функция потерь

. $L_{qCI}(\theta, (a,b); p_L, p_U) = L_q(\theta, a;p_L) + L_q(\theta, b;p_U)$

— Cyan
источник

θ

$\theta$

Есть ли другой способ думать о квантильных интервалах, которые не ссылаются непосредственно на квантили или длину интервала. Я надеялся на что-то вроде «квантильный интервал максимизирует / минимизирует среднее / минимальное / максимальное / и т. Д.

— Что-

@ RasmusBååth, вы в основном спрашиваете: «Каковы необходимые условия для функции потерь для квантильных интервалов, чтобы быть решением для минимизации задней ожидаемой потери?» Моя интуиция, прямо из того, как математика работает в прямом направлении, заключается в том, что это почти все. Хотя это не доказано.

— Cyan

L

$L$

s

$s$

s

$s$

s

$s$

s

$s$

L

$L$

просто упомянув, что раздел 5.5.3 Байесовского выбора покрывает основанный на потерях вывод надежных множеств ...

— Сиань

Интервалы минимального размера

Одним из очевидных вариантов выбора функции потерь для выбора интервала (как байесовского, так и частого) является использование размера интервалов, измеренного в терминах предельных распределений. Таким образом, начните с желаемого свойства или функции потерь и выведите оптимальные интервалы. Как правило, этого не делается, о чем свидетельствует настоящий вопрос, даже если это возможно. Для байесовских достоверных наборов это соответствует минимизации предыдущей вероятности интервала или максимизации относительного убеждения, например, как описано в Evans (2016). Размер также может быть использован для выбора частых доверительных наборов (Schafer 2009). Два подхода связаны и могут быть довольно легко реализованы с помощью правил принятия решений, которые преимущественно включают решения с большой точечной взаимной информацией (Bartels 2017).

Бартельс, к., 2017. Использование предыдущих знаний в тестах для частых. figshare. https://doi.org/10.6084/m9.figshare.4819597.v3

Эванс М., 2016. Измерение статистических данных с использованием относительных убеждений. Журнал вычислительной и структурной биотехнологии, 14, с.91-96.

Schafer, CM и Stark, PB, 2009. Построение доверительных областей оптимального ожидаемого размера. Журнал Американской статистической ассоциации, 104 (487), с. 1080-1089.

— user36160
источник

Я вижу, вы цитируете Эванса за предложение Кита О'Рурка ( andrewgelman.com/2016/07/17/… ). Мне действительно нравятся вещи Эванса.

— Голубой

Мне очень приятно, что Кит был проинформирован о работе, которая начинается по-другому, но в итоге приводит к сходным выводам! Важно процитировать это.

— user36160