Правда ли, что байесовцам не нужны тестовые наборы?

Недавно я смотрел этот доклад Эрика Дж. Ма и проверил его запись в блоге , где он цитирует Рэдфорда Нила, что байесовские модели не подходят больше (но они могут соответствовать ), и при их использовании нам не нужны тестовые наборы для их проверки (для Мне кажется, что цитаты говорят скорее об использовании набора проверки для настройки параметров). Честно говоря, аргументы не убеждают меня, и у меня нет доступа к книге, так что вы могли бы дать более подробный и строгий аргумент за или против такого заявления?

Кстати, тем временем Эрик Ма указал мне эту дискуссию на ту же тему.

— Тим
источник

Одна главная дыра в этом аргументе в отношении этого разговора: если вы делаете MCMC, если вы не полностью исследуете апостериор, ваш вывод совершенно неверен. Если вы делаете вывод в байесовской нейронной сети, вы почти наверняка не исследовали очень большие части апостериорного с использованием MCMC. Поэтому вам лучше разбить свои данные, чтобы дважды проверить свой вывод!

— Клифф AB

Одна вещь, чтобы рассмотреть, что мы оцениваем или проверяем? может случиться так, что мы не используем всю имеющуюся у нас информацию (как ранее, так и по вероятности). Проверка соответствия модели может помочь с ответом на этот вопрос.

— вероятностная

Если мы используем «единственную истинную модель» и «истинные априоры», отражающие некоторую надлежащим образом полученную предыдущую информацию, то, насколько мне известно, у байесовского источника действительно нет проблемы переобучения, и что апостериорное предиктивное распределение, учитывая очень мало данных, будет соответственно неопределенным , Однако, если мы используем какую-то прагматически выбранную модель (то есть мы решили, что, например, степень опасности постоянна во времени, а экспоненциальная модель подходит или, например, что некоторый ковариат отсутствует в модели = точка, предшествующая нулевому коэффициенту) с некоторыми по умолчанию неинформативные или регуляризирующие приоры, тогда мы действительно не знаем, применимо ли это до сих пор. В этом случае выбор (гипер-) априоров имеет некоторый произвол, который может привести или не привести к хорошим прогнозным прогнозам.

Таким образом, тогда очень разумно задать вопрос, будет ли выбор гиперпараметра (= параметры гиперприоров) в сочетании с выбранной вероятностью хорошим. На самом деле, вы можете легко решить, что это хорошая идея - настроить ваши гиперпараметры, чтобы получить желаемую эффективность прогнозирования. С этой точки зрения, набор проверки (или перекрестная проверка) для настройки гиперпараметров и набор тестов для подтверждения производительности имеют смысл.

Я думаю , что это тесно связанно с числом дискуссий Эндрю Гельмана на своем блоге (смотрите , например , запись в блог 1 , запись в блоге 2 , запись в блоге 3 на ЛОО для Стана и discusions на задних прогнозирующих проверках), где он обсуждает свои проблемы по всем (в некотором смысле правильно) утверждает, что байесовский не должен проверять, имеет ли их модель смысл и о практической оценке байесовской модели.

Конечно, мы очень часто наиболее заинтересованы в использовании байесовских методов в настройках, где мало предварительной информации и мы хотим использовать несколько информативных априоров. В этот момент может оказаться несколько сложным иметь достаточно данных, чтобы получить их где угодно с проверкой и оценкой на тестовом наборе.

— Бьерн
источник

Поэтому я ответил на вопрос о переоснащении, на которое вы ссылаетесь, и посмотрел видео и прочитал пост в блоге. Рэдфорд Нил не говорит, что байесовские модели не подходят. Давайте вспомним, что переоснащение - это явление шума, которое рассматривается как сигнал и включается в оценку параметров. Это не единственный источник ошибки выбора модели. Обсуждение Нила более широкое, хотя, углубившись в идею небольшого размера выборки, он решился на обсуждение переоснащения.

Позвольте мне частично пересмотреть мою предыдущую публикацию о том, что байесовские модели могут соответствовать всем байесовским моделям, но делают это таким образом, чтобы улучшить прогноз. Опять же, возвращаясь к определению смешения сигнала с шумом, неопределенность в байесовских методах, апостериорное распределение, является количественной оценкой этой неопределенности относительно того, что является сигналом и что такое шум. При этом байесовские методы вносят шум в оценки сигнала, так как весь апостериор используется для вывода и прогнозирования. Переоснащение и другие источники ошибки классификации моделей - это проблема другого типа в байесовских методах.

Чтобы упростить, давайте примем структуру разговора Ма и сосредоточимся на линейной регрессии и избежим дискуссии о глубоком обучении, потому что, как он указывает, альтернативные методы, которые он упоминает, являются просто композициями функций, и между логикой линейной логики существует прямая связь. регрессия и глубокое обучение.

Рассмотрим следующую потенциальную модель Давайте создадим широкую выборку размером состоящую из двух подвыборок: , где - обучающий набор, а - проверочный набор. Мы увидим, почему с учетом нескольких оговорок байесовские методы не нуждаются в отдельном наборе обучения и проверки.

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{3} .

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3.$

N

$N$

n_{1}, n_{2}

$n_1,n_2$

n_{1}

$n_1$

n_{2}

$n_2$

Для этого обсуждения нам нужно создать еще восемь параметров, по одному для каждой модели. Это . Они следуют полиномиальному распределению и имеют надлежащие априоры, как и коэффициенты регрессии. Восемь моделей: и $m_1\dots{_8}$

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{3},

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3,$

y = β_{0},

$y=\beta_0,$

y = β_{0} + β_{1} x_{1},

$y=\beta_0+\beta_1x_1,$

y = β_{0} + β_{2} x_{2},

$y=\beta_0+\beta_2x_2,$

y = β_{0} + β_{3} x_{3},

$y=\beta_0+\beta_3x_3,$

y = β_{0} + β_{1} x_{1} + β_{2} x_{2},

$y=\beta_0+\beta_1x_1+\beta_2x_2,$

y = β_{0} + β_{1} x_{1} + β_{3} x_{3},

$y=\beta_0+\beta_1x_1+\beta_3x_3,$

y = β_{0} + β_{2} x_{2} + β_{3} x_{3},

$y=\beta_0+\beta_2x_2+\beta_3x_3,$

y = β_{0} + β_{1} x_{1},

$y=\beta_0+\beta_1x_1,$

y = β_{0} + β_{2} x_{2},

$y=\beta_0+\beta_2x_2,$

y = β_{0} + β_{3} x_{3} .

$y=\beta_0+\beta_3x_3.$

Теперь нам нужно разобраться в различиях между байесовскими и частотными методами. В обучающем наборе использующий методы Frequentist, выбирает только одну модель. Разработчик моделей, использующий байесовские методы, не имеет таких ограничений. Хотя байесовский разработчик моделей может использовать критерий выбора модели, чтобы найти только одну модель, он также может использовать усреднение модели. Байесовский разработчик моделей также может изменять выбранные модели в середине потока в сегменте проверки. Кроме того, разработчик моделей, использующий байесовские методы, может смешивать и сопоставлять выбор и усреднение. $n_1,$

Чтобы привести пример из реальной жизни, я протестировал 78 моделей банкротства. Из 78 моделей совокупная апостериорная вероятность 76 из них составила около одной десятитысячной доли процента. Две другие модели были примерно 54% и 46% соответственно. К счастью, они также не имели общих переменных. Это позволило мне выбрать обе модели и игнорировать другие 76. Когда у меня были все точки данных для обеих, я усреднил их прогнозы на основе апостериорных вероятностей двух моделей, используя только одну модель, когда у меня отсутствовали точки данных, которые исключали Другой. В то время как у меня были тренировочные наборы и проверочные наборы, это было не по той же причине, по которой они были у Frequentist. Кроме того, в конце каждого дня в течение двух рабочих циклов я обновлял свои постеры с данными каждого дня. Это означало, что моя модель в конце набора проверки не была моделью в конце набора обучения. Байесовские модели не прекращают учиться, в то время как модели Frequentist делают

Чтобы углубиться, давайте разберемся с нашими моделями. Предположим, что во время обучающей выборки наилучшим образом подходили модель Frequentist и байесовская модель, использующая выбор модели, или, наоборот, вес модели при усреднении модели был настолько велик, что он был почти неотличим от модели Frequentist. Мы представим, что эта модель Давайте также представим, что истинной моделью в природе является

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{3} .

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3.$

y = β_{0} + β_{1} x_{1} + β_{3} x_{3} .

$y=\beta_0+\beta_1x_1+\beta_3x_3.$

Теперь давайте рассмотрим разницу в наборе валидации. Модель Frequentist приспособлена к данным. Давайте предположим, что к некоторому моменту процедура выбора или проверки модели изменила выбор на истинную модель по своей природе. Кроме того, если использовалось усреднение модели, то истинная модель в природе имела вес в прогнозе задолго до того, как выбор моделей был четким. ET Джейнс в своей книге о теории вероятностей проводит некоторое время, обсуждая эту проблему. У меня есть книга на работе, поэтому я не могу дать вам хорошую цитату, но вы должны прочитать ее. Его ISBN - 978-0521592710. $n_2^i$

Модели являются параметрами в байесовском мышлении и, как таковые, являются случайными или, если хотите, неопределенными. Эта неопределенность не заканчивается во время процесса проверки. Это постоянно обновляется.

Из-за различий между байесовскими и частыми методами существуют другие типы случаев, которые также должны быть рассмотрены. Первый из выводов параметров, второй из формальных предсказаний. Они не одно и то же в байесовских методах. Байесовские методы формально разделяют умозаключения и принятие решений. Они также выделяют оценку параметров и прогноз.

Давайте представим, без ограничения общности, что модель будет успешной, если а в противном случае - неудачей. Мы собираемся игнорировать другие параметры, потому что было бы много дополнительной работы, чтобы получить простую идею. Для моделиста, использующего байесовские методы, это совершенно другой тип вопроса, чем для того, кто использует методы Frequentist. $\hat{\sigma^2}<k$

Для Frequentist тест гипотезы формируется на основе тренировочного набора. Разработчик моделей, использующий методы Frequentist, будет проверять, является ли оценочная дисперсия большей или равной и пытаться отклонить нулевое значение для выборки, размер которой равен , фиксируя параметры, обнаруженные в . $k$ $n_2$ $n_1$

Для разработчика моделей, использующего байесовские методы, они формируют оценки параметров в течение выборки а апостериорная плотность станет приоритетом для выборки . Предполагая, что свойство взаимозаменяемости имеет место, тогда гарантируется, что апостериорная оценка во всех смыслах слова слова оценки вероятности, сформированной из объединенной выборки. Разделение их на две выборки эквивалентно силе математики тому, что они вообще не разбивались. $n_1$ $n_1$ $n_2$ $n_2$

Для прогнозов, аналогичная проблема имеет место. Байесовские методы имеют прогнозирующее распределение, которое также обновляется с каждым наблюдением, тогда как метод Frequentist заморожен в конце выборки . Предсказательная плотность может быть записана как . Если является предсказанием, а является образцом, то где параметры, которые мы будем обозначать $n_1$ $\Pr(\tilde{x}=k|\mathbf{X})$ $\tilde{x}$ $\mathbf{X}$ $\theta?$ Хотя системы прогнозирования Frequentist существуют, большинство людей просто рассматривают точечные оценки как истинные параметры и вычисляют невязки. Байесовские методы будут оценивать каждое предсказание по сравнению с предсказанной плотностью, а не только по одной точке. Эти прогнозы не зависят от параметров, которые отличаются от точечных методов, используемых в решениях Frequentist.

В качестве дополнительного примечания, формальные прогностические плотности Frequentist существуют с использованием стандартных ошибок, и по ним можно было бы сделать оценку, но на практике это редко. Если нет специальных предварительных знаний, то два набора прогнозов должны быть идентичны для одного и того же набора точек данных. Они будут потому что и, следовательно, байесовское решение будет содержать больше информации. $n_1+n_2>n_1$

Если нет существенной априорной информации и если прогнозные плотности Frequentist используются вместо точечных оценок, то для фиксированной выборки результаты байесовских и Frequentist методов будут идентичны, если выбрана одна модель. Если есть предварительная информация, то байесовский метод будет иметь тенденцию генерировать более точные прогнозы. Эта разница может быть очень большой на практике. Кроме того, если есть усреднение модели, то вполне вероятно, что байесовский метод будет более устойчивым. Если вы используете выбор модели и замораживаете байесовские прогнозы, то нет никакой разницы в использовании модели Frequentist с использованием прогнозов Frequentist.

Я использовал набор для проверки и проверки, потому что мои данные не подлежали обмену. В результате мне нужно было решить две проблемы. Первое похоже на выжигание в методах MCMC. Мне нужен был хороший набор оценок параметров, чтобы начать мою последовательность испытаний, и поэтому я использовал пятьдесят лет предыдущих данных, чтобы получить хорошую предыдущую плотность, чтобы начать мой проверочный тест. Вторая проблема заключалась в том, что мне требовалась некоторая форма стандартизированного периода для тестирования, чтобы тест не подвергался сомнению. Я использовал два предыдущих бизнес-цикла, датированных NBER.

— Дейв Харрис
источник

Но потом, скажем, вы оценили MAP для модели линейной регрессии с «неинформативными» априорами. Это было бы эквивалентно получению оценки максимального правдоподобия для модели, поэтому ML тоже не нуждается в наборе тестов, если предположить взаимозаменяемость?

— Тим

«Подгонка - это явление шума, которое рассматривается как сигнал и включается в оценку параметров». Я полагаю, что это определение относится к моделям аддитивного шума. В противном случае переоснащение против подгонки не так хорошо определены.

— Кагдас Озгенц,

@CagdasOzgenc спасибо. У вас есть предлагаемые изменения?

— Дейв Харрис

@ Я никогда не упоминал оценщика MAP. Если вы сводите проблему к оценщику MAP, вы отказываетесь от надежности. Оценщик MAP - это точка, которая минимизирует функцию стоимости по плотности. Это может быть проблематичным для прогнозов, если плотности не хватает достаточной статистики. Оценщик MAP, по сути, потерял бы информацию. Если вы использовали оценщик MAP, которого нет в исходном вопросе и явно не является частью презентации Ма, то вы создаете для себя другой набор проблем.

— Дейв Харрис

@Tim Оценка MAP основана на байесовской теории принятия решений и является наложением поверх байесовских оценок и выводов. КАРТА удобна. При выборе удобства необходимо заплатить цену. Если функция «все или ничего» не является вашей функцией истинной стоимости, вы отказываетесь как от информации, так и от точности. Вы также заканчиваете другими методологическими проблемами, чем предложено в представлении Ма.

— Дейв Харрис