Когда байесовские методы предпочтительнее, чем Frequentist?

18

Я действительно хочу узнать о методах Байеса, поэтому я пытался немного научить себя. Тем не менее, мне трудно понять, когда использование байесовских методов дает преимущество перед методами Frequentist. Например: я видел в литературе немного о том, как некоторые используют информативные приоры, в то время как другие используют неинформативные априорные. Но если вы используете неинформативный априор (который кажется действительно распространенным?) И вы обнаружите, что апостериорный дистрибутив, скажем, бета-дистрибутив ... разве вы не могли просто подогнать бета-дистрибутив в начале и назвали это хорошо? Я не понимаю, как построить предыдущий дистрибутив, который ничего вам не говорит ... может, ну, на самом деле, сказать вам что-нибудь?

Оказывается, некоторые методы, которые я использовал в R, используют смесь байесовских и частотных методов (авторы признают, что это несколько противоречиво), и я даже не могу различить, какие части байесовские. Помимо подгонки распределения, я даже не могу понять, КАК вы бы использовали байесовские методы. Есть ли "байесовская регрессия"? Как это будет выглядеть? Все, что я могу себе представить, это гадать о лежащем в основе распределении снова и снова, пока Frequentist обдумывает некоторые данные, смотрит им в глаза, видит распределение Пуассона и запускает GLM. (Это не критика ... Я просто не понимаю!)

Так что ... может быть, помогут некоторые элементарные примеры? И если вы знаете некоторые практические рекомендации для настоящих новичков, таких как я, это тоже будет очень полезно!

bayesian frequentist

— HFBrowning
источник

Возможная копия этого ?

— Glen_b

Ээ, как выглядит? Добро пожаловать, так как это близко к ответу на мой вопрос. Я все еще задаюсь вопросом о более простых ситуациях, которые я описал (так как я никогда не слышал о методах, перечисленных в этой теме), но я полагаю, что мой ответ таков: люди не используют байесовские методы для регрессии и т. Д., Потому что существуют общепринятые и простые методы частых исследований?

— HFBrowning

2

Люди действительно используют Байеса методы регрессии. Но поскольку методы часто используются и многие люди прагматичны в отношении того, какой подход они используют, очень часто люди, которые с удовольствием их используют, будут использовать обычную регрессию, если нет необходимости в чем-то более сложном. Но как только вам нужно разобраться с немного большей сложностью, или формально включить предшествующую информацию, или любым другим числом причин, тогда скромная дополнительная работа в байесовских подходах начинает выглядеть хорошо.

— Glen_b

Это имеет смысл, спасибо. Чтение некоторых других тем прояснило для меня и использование.

— HFBrowning

Что-то еще, что уместно ... для регрессии в байесовской среде, наиболее используемые априорные значения для коэффициентов - это многовариантный нормальный и многовариантный Лаплас. Использование этих априоров позволяет наложить штрафные коэффициенты усадки на коэффициенты, делая их эквивалентными использованию регрессии гребня или LASSO, соответственно, если принять оценку коэффициентов MAP после байесовского алгоритма. Гораздо более экономно рассчитывать эти результаты способом, который не является полностью байесовским, и если они в основном эквивалентны ... зачем?

11

Вот несколько ссылок, которые могут вас заинтересовать, сравнивая частые и байесовские методы:

В двух словах, насколько я понял, учитывая конкретный набор данных, частый человек считает, что существует истинное, базовое распределение, из которого были сгенерированы указанные данные. Невозможность получить точные параметры является функцией конечного размера выборки. Байесовский, с другой стороны, думает, что мы начинаем с некоторого предположения о параметрах (даже если неосознанно) и используем данные, чтобы уточнить наше мнение об этих параметрах. Оба пытаются разработать модель, которая может объяснить наблюдения и сделать прогнозы; Разница в допущениях (как реальных, так и философских). В качестве содержательного, не строгого утверждения можно сказать, что частый участник считает, что параметры являются фиксированными, а данные случайными; Байесовский считает, что данные являются фиксированными, а параметры являются случайными. Что лучше или предпочтительнее? Чтобы ответить, что вы должны копаться и понимать, простокакие допущения каждый влечет за собой (например, являются ли параметры асимптотически нормальными?).

— Авраам
источник

2

Много хороших и интересных ответов, но это ответило на мои вопросы наиболее прямо. Спасибо

— HFBrowning

@Avraham первая ссылка не работает

— Эрик Амбарцумян

1

@ErikHambardzumyan Спасибо. Найдена версия, сохраненная на машине обратного хода.

— Авраам

10

Один из многих интересных аспектов контрастов между этими двумя подходами состоит в том, что очень трудно иметь формальную интерпретацию для многих величин, которые мы получаем в частотной области. Одним из примеров является все возрастающее значение методов наказания (усадка). Когда кто-либо получает штрафные оценки максимального правдоподобия, оценки смещенной точки и «доверительные интервалы» очень трудно интерпретировать. С другой стороны, байесовское апостериорное распределение для параметров, которые штрафуются в сторону нуля с использованием предварительного распределения, сосредоточенного вокруг нуля, имеют полностью стандартные интерпретации.

— Фрэнк Харрелл
источник

1

Это хороший момент. Интересно, правда ли это, когда лямбда выбирается априори? Часто можно выбрать лямбду, используя перекрестную проверку для оптимизации ошибки прогнозирования вне выборки. В этом случае мне кажется странным сказать, что лямбда эквивалентна «предварительной информации», которую вы привели к анализу.

— gung - Восстановить Монику

1

λ = σ^{- 2}

$\lambda = \sigma^{-2}$

λ

$\lambda$

3

Я бы сказал, что лямбда была гиперпараметром предыдущего (для которого, будучи более байесовским, вы могли бы иметь гиперприоритет и маргинализировать его также jmlr.org/papers/volume8/cawley07a/cawley07a.pdf )

— Дикран Marsupial

5

Я краду эту оптовую торговлю из группы пользователей Stan. Майкл Бетанкур предоставил эту действительно хорошую дискуссию об опознаваемости в байесовском умозаключении, которая, как я полагаю, имеет отношение к вашей просьбе о контрасте двух статистических школ.

Первым отличием байесовского анализа будет наличие априоров, которые, даже будучи слабыми, будут ограничивать апостериорную массу для этих 4 параметров в конечную окрестность (иначе у вас не было бы действительного априора в первую очередь). Несмотря на это, вы все равно можете иметь неидентифицируемость в том смысле, что апостериорные не будут сходиться к точечной массе в пределе бесконечных данных. В очень реальном смысле, однако, это не имеет значения, потому что (а) бесконечный предел данных не является реальным в любом случае и (б) байесовский вывод не сообщает точечные оценки, а скорее распределения. На практике такая неидентифицируемость приведет к большим корреляциям между параметрами (возможно, даже к невыпуклости), но надлежащий байесовский анализ идентифицирует эти корреляции. Даже если вы сообщаете маргинальные значения одного параметра, вы '

$\mu_1$ $\mu_2$ $\mathcal{N}(x | \mu_1 + \mu_2, \sigma)$ $\mu_1 + \mu_2 = 0$ $\mu_1$ $\mu_2$

$\mu_1$ $\mu_2$ $\mu_1$ $\mu_2$

— Sycorax говорит восстановить Монику
источник

3

Ключевое различие между байесовским и частотным подходами заключается в определении вероятности, поэтому, если необходимо строго относиться к вероятностям как к долгосрочной частоте, то подходы к частоте разумны, если нет, то следует использовать байесовский подход. Если любая интерпретация приемлема, то байесовский и частый подходы, вероятно, будут разумными.

Иначе говоря, если вы хотите знать, какие выводы вы можете сделать из конкретного эксперимента, вы, вероятно, хотите быть байесовским; если вы хотите сделать выводы о некоторой совокупности экспериментов (например, контроль качества), то методы с частыми данными хорошо подходят.

По сути, важно знать, на какой вопрос вы хотите получить ответ, и выбрать форму анализа, которая отвечает на этот вопрос наиболее непосредственно.

— Дикран Сумчатый
источник