Как байесовская система лучше интерпретируется, когда мы обычно используем неинформативные или субъективные априорные значения?


18

Часто утверждают, что байесовский каркас имеет большое преимущество в интерпретации (по сравнению с частыми), потому что он вычисляет вероятность параметра с учетом данных - вместо как в Частые рамки. Все идет нормально.p ( x | θ )p(θ|x)p(x|θ)

Но все уравнение основано на:

p(θ|x)=p(x|θ).p(θ)p(x)

выглядит немного подозрительно по двум причинам:

  1. Во многих статьях обычно используются неинформативные априорные значения (равномерное распределение), а затем просто , поэтому байесовцы получают тот же результат, что и частые специалисты - так как же тогда байесовская структура лучше интерпретируется, когда байесовский апостериор и вероятностные вероятности имеют одинаковое распределение? Это просто дает тот же результат.p(θ|x)=p(x|θ)

  2. При использовании информативных априорных значений вы получаете разные результаты, но субъективный априор влияет на байесовский эффект, поэтому весь имеет субъективный оттенок.p(θ|x)

Другими словами, весь аргумент о том, что лучше интерпретируется, чем p ( x | θ ), основан на предположении, что p ( θ ) является своего рода «реальным», что обычно не является, это просто отправной точкой мы каким-то образом выбираем запуск MCMC, это презумпция, но это не описание реальности (я думаю, это невозможно определить).p(θ|x)p(x|θ)p(θ)

Так как же мы можем утверждать, что байесовский язык лучше в интерпретации?


4
(1) выглядит подозрительно, потому что его вывод неверен: результаты Байеса с неинформативными априорными данными не обязательно совпадают с частыми выводами. Фактически, во многих случаях, кажется, нет согласия относительно того, что такое «неинформативный априор»! (2) также является дискуссионным, поскольку подразумевает, что каждое предположение, сделанное в ходе анализа часто используемых материалов, не является субъективным, но это не так. Наконец, что именно вы подразумеваете под «лучше в интерпретации»? Ваш вопрос неоднозначен без определения этого.
whuber

1
В дополнение к комментарию Уабера, я хотел бы сказать, что нет общей причины, по которой Байес лучше, чем частый участник, и, следовательно, аргумент. Иногда Байес дает значимые результаты, а иногда более частый путь. Однако в прикладной области не должно быть никаких причин, по которым нужно получать совсем другие результаты. С философской точки зрения Байес определенно силен, но, как мы все знаем, теория и практика отличаются, иногда радикально. Кроме того, я немного обеспокоен вашим первым абзацем. Мне кажется, что вы приверженец Байеса (в этом нет ничего плохого).
Suncoolsu

Разве название не должно быть uninformative or *objective* priors? В subjectiveприоры точно информативных приоры.
Джавадба

Ответы:


15

Чтобы дать более узкий ответ, чем отличные, которые уже были опубликованы, и сосредоточиться на преимуществе в интерпретации - байесовская интерпретация, например, «95% вероятного интервала» заключается в том, что вероятность того, что истинное значение параметра находится в пределах интервал равен 95%. Одна из двух распространенных частых интерпретаций, например, «95% доверительного интервала», даже если численно эти два идентичные, состоит в том, что в долгосрочной перспективе, если мы должны были выполнить процедуру много-много раз, частота, с которой интервал будет охватывать реальное значение будет сходиться до 95%. Первое интуитивно понятно, второе - нет. Попытайтесь объяснить менеджеру какое-то время, что вы не можете сказать: «Вероятность того, что наши солнечные батареи ухудшатся менее чем на 20% за 25 лет, составляет 95%», но вместо этого нужно сказать «

Альтернативная частая интерпретация была бы такой: «До того, как данные были сгенерированы, с 5% -ной вероятностью интервал, который я рассчитал, используя процедуру, на которой я остановился, полностью опустился бы ниже истинного значения параметра. Однако теперь, когда мы собрали данные, мы не можем сделать такое заявление, потому что мы не субъективисты, и вероятность равна 0 или 1, в зависимости от того, лежит ли она полностью или нет, ниже истинного значения параметра ». Это поможет с аудиторами и при расчете гарантийного резерва. (На самом деле я нахожу это определение разумным, хотя обычно не полезным; его также непросто понять интуитивно, особенно если вы не статистик.)

Ни одна из частых интерпретаций не является интуитивной. Байесовская версия есть. Отсюда и «большое преимущество в интерпретации», присущее байесовскому подходу.


Моя проблема с аргументом против частых ответов состоит в том, что он слишком старается описать процедуру как ответ. Попробуйте тот же эксперимент для себя в интерпретации, но относительно того, какой вывод сделать из результатов. Как именно вы будете действовать по- другому, основываясь на результатах, полученных от частого и байесовского? На самом деле, вы все равно будете вести себя одинаково, когда понимаете оба. Нет необходимости переходить на уровень процедуры, чтобы объяснить, что «лучше всего действовать так или иначе, основываясь на достоверности данных».
PascalVKooten

Кроме того, по определению вам придется больше объяснять в байесовском случае, поскольку у вас есть не только «что нам говорят данные», но и какая информация содержится в предыдущем! Байесовцы, как правило, часто приводят объяснения часто, но они не объясняют, какой приоритет они выбрали, почему они выбрали приоритет и, в частности, почему этот приоритет.
PascalVKooten

Ну, я частично не соглашусь с твоим последним пунктом. Например, когда я выполнял анализ надежности очень и очень дорогих единиц оборудования на своей предыдущей работе, мы рассматривали результаты нашего предыдущего анализа надежности как предварительные для нашего нового, уменьшив его в терминах «эквивалентного размера выборки» до принять во внимание нестационарность реального мира и небольшие изменения в дизайне и т. д. И, действительно, байесовская статистика - это все, что касается обновления ваших предыдущих данных; Классическая статистика не «обновляется», поэтому вы получите те же результаты, только если ваш предыдущий не изменился, за некоторыми исключениями.
jbowman

Я бы просто слил наборы данных и выполнил еще один анализ ... не нужно заранее придумывать. Нет ничего лучше, чем фактические предыдущие данные: вы получаете «реальный» апостериорный, основанный на данных.
PascalVKooten

Ну, вы можете не захотеть точно предыдущую апостериорную сторону для вашего нового предшественника, в нашем случае из-за продолжающихся незначительных изменений дизайна и нашего знания, что MFG процесс тоже развивался, что делало наши предыдущие не 100% информативными для будущих данных. Также могут быть соображения времени выполнения. Но, как мне кажется, ваша точка зрения в целом хорошая.
jbowman

13

p(θ|x)p(x|θ)p(x|θ)p(θ|x)

Обратите внимание, что информативные априорные значения не обязательно являются субъективными, например, я бы не считал субъективным знанием утверждать, что предварительное знание некоторой физической системы должно быть независимым от единиц измерения (поскольку они по существу произвольны), что приводит к идее групп преобразования и "минимально информативные" приоры.

Обратная сторона игнорирования субъективных знаний заключается в том, что ваша система может быть неоптимальной, поскольку вы игнорируете экспертные знания, поэтому субъективность не обязательно является плохой вещью. Например, в обычной задаче «сделать вывод о предвзятости монеты», часто используемой в качестве мотивирующего примера, вы будете учиться относительно медленно с единообразным априором по мере поступления данных. Но все ли предубеждения одинаково вероятны как разумное предположение? Нет, легко сделать слегка смещенную монету или ту, которая полностью смещена (две головы или два счета), поэтому, если мы встроим это предположение в наш анализ с помощью субъективного априора, нам потребуется меньше данных, чтобы определить, что предвзятость на самом деле есть.

Частые анализы также часто содержат субъективные элементы (например, решение отклонить нулевую гипотезу, если значение р меньше 0,05, логическое принуждение к этому отсутствует, это просто традиция, которая оказалась полезной). Преимущество байесовского подхода состоит в том, что субъективность делается явной в расчете, а не остается неявной.

В конце концов, это вопрос «лошадей для курсов», вы должны иметь оба набора инструментов в своем наборе инструментов и быть готовыми использовать лучший инструмент для выполнения поставленной задачи.


6

Байесовская структура имеет большое преимущество перед частыми, потому что она не зависит от наличия «хрустального шара» с точки зрения знания правильных предположений о распределении, которые необходимо сделать. Байесовские методы зависят от того, какую информацию вы имеете, и от того, как закодировать эту информацию в распределении вероятностей.

Использование байесовских методов в основном использует теорию вероятностей в ее полном объеме. Теорема Байеса - не что иное, как переформулировка классического правила теории вероятностей произведения:

p(θx|I)=p(θ|I)p(x|θI)=p(x|I)p(θ|xI)

p(x|I)0I

Теперь, если вы думаете, что теорема Байеса является подозрительной, то, по логике, вы также должны думать, что правило продукта также является подозрительным. Вы можете найти дедуктивный аргумент здесь , который выводит произведение и сумму правило, аналогичную теорему Коксы. Более подробный список необходимых предположений можно найти здесь .

Насколько я знаю, частые умозаключения не основаны на ряде основ в логической структуре. Поскольку он использует аксиомы вероятности Колмогорова, похоже, нет никакой связи между теорией вероятности и статистическим выводом. Нет никаких аксиом для частого вывода, которые приводят к процедуре, которой нужно следовать. Существуют принципы и методы (максимальное правдоподобие, доверительные интервалы, p-значения и т. Д.), И они работают хорошо, но они, как правило, изолированы и специализируются на конкретных проблемах. Я думаю, что методы часто используются в своих основах нечетко, по крайней мере, с точки зрения строгой логической структуры.

1θ

2

Использование равномерного априора часто удобное приближение, когда вероятность высока по сравнению с априорной. Иногда это не стоит усилий, чтобы пройти и правильно настроить предварительную. Точно так же не делайте ошибку, путая байесовскую статистику с MCMC. MCMC - это просто алгоритм интегрирования, такой же, как и в квадрате Гасса, и в классе, аналогичном приближению Лапласа. Это немного более полезно, чем квадратичное, потому что вы можете повторно использовать выходные данные алгоритма для выполнения всех ваших интегралов (апостериорные средние и дисперсии являются интегралами), и немного более общего, чем Лаплас, потому что вам не нужна большая выборка или хорошо округленный пик в задней части (хотя Лаплас быстрее).


3

μ=0) помещенный поверх коэффициента регрессии, кодирующий знание, что все вещи равны, мы предпочитаем решения, в которых коэффициенты имеют меньшие величины. Это сделано для того, чтобы избежать перегрузки набора данных путем поиска решений, которые максимизируют целевую функцию, но не имеют смысла в конкретном контексте нашей проблемы. В некотором смысле они предоставляют способ дать статистической модели некоторые «подсказки» о конкретной области.

Однако это (на мой взгляд) не самый важный аспект байесовских методологий. Байесовские методы являются генеративными, поскольку они предоставляют полную «историю» того, как данные появились. Таким образом, они не просто шаблонные искатели, а скорее способны принять во внимание всю реальность ситуации. Например, рассмотрим LDA (скрытое распределение Дирихле), которое предоставляет полную генеративную историю о том, как появляется текстовый документ, и выглядит примерно так:

  1. Выберите некоторое сочетание тем на основе вероятности того, что отдельные темы будут встречаться одновременно; и
  2. Выберите некоторый набор слов из словаря, обусловленный на основе выбранных тем.

Таким образом, модель подходит на основе очень специфического понимания объектов в домене (здесь текстовые документы) и того, как они были созданы; поэтому информация, которую мы получаем, адаптируется непосредственно к нашей проблемной области (вероятность слов заданных тем, вероятность упоминания тем вместе, вероятность документов, содержащих темы и в какой степени и т. д.). Тот факт, что для этого требуется теорема Байеса, почти вторичен, отсюда и небольшая шутка: «Байес не был бы байесовским, а Христос не был бы христианином».

Короче говоря, байесовские модели предназначены для строгого моделирования доменных объектов с использованием вероятностных распределений; следовательно, мы можем кодировать знания, которые иначе были бы недоступны, с помощью простого распознающего метода.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.