Поэтому я ответил на вопрос о переоснащении, на которое вы ссылаетесь, и посмотрел видео и прочитал пост в блоге. Рэдфорд Нил не говорит, что байесовские модели не подходят. Давайте вспомним, что переоснащение - это явление шума, которое рассматривается как сигнал и включается в оценку параметров. Это не единственный источник ошибки выбора модели. Обсуждение Нила более широкое, хотя, углубившись в идею небольшого размера выборки, он решился на обсуждение переоснащения.
Позвольте мне частично пересмотреть мою предыдущую публикацию о том, что байесовские модели могут соответствовать всем байесовским моделям, но делают это таким образом, чтобы улучшить прогноз. Опять же, возвращаясь к определению смешения сигнала с шумом, неопределенность в байесовских методах, апостериорное распределение, является количественной оценкой этой неопределенности относительно того, что является сигналом и что такое шум. При этом байесовские методы вносят шум в оценки сигнала, так как весь апостериор используется для вывода и прогнозирования. Переоснащение и другие источники ошибки классификации моделей - это проблема другого типа в байесовских методах.
Чтобы упростить, давайте примем структуру разговора Ма и сосредоточимся на линейной регрессии и избежим дискуссии о глубоком обучении, потому что, как он указывает, альтернативные методы, которые он упоминает, являются просто композициями функций, и между логикой линейной логики существует прямая связь. регрессия и глубокое обучение.
Рассмотрим следующую потенциальную модель Давайте создадим широкую выборку размером состоящую из двух подвыборок: , где - обучающий набор, а - проверочный набор. Мы увидим, почему с учетом нескольких оговорок байесовские методы не нуждаются в отдельном наборе обучения и проверки.
y=β0+β1x1+β2x2+β3x3.
Nn1,n2n1n2
Для этого обсуждения нам нужно создать еще восемь параметров, по одному для каждой модели. Это . Они следуют полиномиальному распределению и имеют надлежащие априоры, как и коэффициенты регрессии. Восемь моделей: и m1…8
y=β0+β1x1+β2x2+β3x3,
y=β0,
y=β0+β1x1,
y=β0+β2x2,
y=β0+β3x3,
y=β0+β1x1+β2x2,
y=β0+β1x1+β3x3,
y=β0+β2x2+β3x3,
y=β0+β1x1,
y=β0+β2x2,
y=β0+β3x3.
Теперь нам нужно разобраться в различиях между байесовскими и частотными методами. В обучающем наборе использующий методы Frequentist, выбирает только одну модель. Разработчик моделей, использующий байесовские методы, не имеет таких ограничений. Хотя байесовский разработчик моделей может использовать критерий выбора модели, чтобы найти только одну модель, он также может использовать усреднение модели. Байесовский разработчик моделей также может изменять выбранные модели в середине потока в сегменте проверки. Кроме того, разработчик моделей, использующий байесовские методы, может смешивать и сопоставлять выбор и усреднение.n1,
Чтобы привести пример из реальной жизни, я протестировал 78 моделей банкротства. Из 78 моделей совокупная апостериорная вероятность 76 из них составила около одной десятитысячной доли процента. Две другие модели были примерно 54% и 46% соответственно. К счастью, они также не имели общих переменных. Это позволило мне выбрать обе модели и игнорировать другие 76. Когда у меня были все точки данных для обеих, я усреднил их прогнозы на основе апостериорных вероятностей двух моделей, используя только одну модель, когда у меня отсутствовали точки данных, которые исключали Другой. В то время как у меня были тренировочные наборы и проверочные наборы, это было не по той же причине, по которой они были у Frequentist. Кроме того, в конце каждого дня в течение двух рабочих циклов я обновлял свои постеры с данными каждого дня. Это означало, что моя модель в конце набора проверки не была моделью в конце набора обучения. Байесовские модели не прекращают учиться, в то время как модели Frequentist делают
Чтобы углубиться, давайте разберемся с нашими моделями. Предположим, что во время обучающей выборки наилучшим образом подходили модель Frequentist и байесовская модель, использующая выбор модели, или, наоборот, вес модели при усреднении модели был настолько велик, что он был почти неотличим от модели Frequentist. Мы представим, что эта модель Давайте также представим, что истинной моделью в природе является
y=β0+β1x1+β2x2+β3x3.
y=β0+β1x1+β3x3.
Теперь давайте рассмотрим разницу в наборе валидации. Модель Frequentist приспособлена к данным. Давайте предположим, что к некоторому моменту процедура выбора или проверки модели изменила выбор на истинную модель по своей природе. Кроме того, если использовалось усреднение модели, то истинная модель в природе имела вес в прогнозе задолго до того, как выбор моделей был четким. ET Джейнс в своей книге о теории вероятностей проводит некоторое время, обсуждая эту проблему. У меня есть книга на работе, поэтому я не могу дать вам хорошую цитату, но вы должны прочитать ее. Его ISBN - 978-0521592710.ni2
Модели являются параметрами в байесовском мышлении и, как таковые, являются случайными или, если хотите, неопределенными. Эта неопределенность не заканчивается во время процесса проверки. Это постоянно обновляется.
Из-за различий между байесовскими и частыми методами существуют другие типы случаев, которые также должны быть рассмотрены. Первый из выводов параметров, второй из формальных предсказаний. Они не одно и то же в байесовских методах. Байесовские методы формально разделяют умозаключения и принятие решений. Они также выделяют оценку параметров и прогноз.
Давайте представим, без ограничения общности, что модель будет успешной, если а в противном случае - неудачей. Мы собираемся игнорировать другие параметры, потому что было бы много дополнительной работы, чтобы получить простую идею. Для моделиста, использующего байесовские методы, это совершенно другой тип вопроса, чем для того, кто использует методы Frequentist.σ2^<k
Для Frequentist тест гипотезы формируется на основе тренировочного набора. Разработчик моделей, использующий методы Frequentist, будет проверять, является ли оценочная дисперсия большей или равной и пытаться отклонить нулевое значение для выборки, размер которой равен , фиксируя параметры, обнаруженные в .kn2n1
Для разработчика моделей, использующего байесовские методы, они формируют оценки параметров в течение выборки а апостериорная плотность станет приоритетом для выборки . Предполагая, что свойство взаимозаменяемости имеет место, тогда гарантируется, что апостериорная оценка во всех смыслах слова слова оценки вероятности, сформированной из объединенной выборки. Разделение их на две выборки эквивалентно силе математики тому, что они вообще не разбивались.n 1 n 2 n 2n1n1n2n2
Для прогнозов, аналогичная проблема имеет место. Байесовские методы имеют прогнозирующее распределение, которое также обновляется с каждым наблюдением, тогда как метод Frequentist заморожен в конце выборки . Предсказательная плотность может быть записана как . Если является предсказанием, а является образцом, то где параметры, которые мы будем обозначатьn1Pr(x~=k|X)x~Xθ? Хотя системы прогнозирования Frequentist существуют, большинство людей просто рассматривают точечные оценки как истинные параметры и вычисляют невязки. Байесовские методы будут оценивать каждое предсказание по сравнению с предсказанной плотностью, а не только по одной точке. Эти прогнозы не зависят от параметров, которые отличаются от точечных методов, используемых в решениях Frequentist.
В качестве дополнительного примечания, формальные прогностические плотности Frequentist существуют с использованием стандартных ошибок, и по ним можно было бы сделать оценку, но на практике это редко. Если нет специальных предварительных знаний, то два набора прогнозов должны быть идентичны для одного и того же набора точек данных. Они будут потому что и, следовательно, байесовское решение будет содержать больше информации.n1+n2>n1
Если нет существенной априорной информации и если прогнозные плотности Frequentist используются вместо точечных оценок, то для фиксированной выборки результаты байесовских и Frequentist методов будут идентичны, если выбрана одна модель. Если есть предварительная информация, то байесовский метод будет иметь тенденцию генерировать более точные прогнозы. Эта разница может быть очень большой на практике. Кроме того, если есть усреднение модели, то вполне вероятно, что байесовский метод будет более устойчивым. Если вы используете выбор модели и замораживаете байесовские прогнозы, то нет никакой разницы в использовании модели Frequentist с использованием прогнозов Frequentist.
Я использовал набор для проверки и проверки, потому что мои данные не подлежали обмену. В результате мне нужно было решить две проблемы. Первое похоже на выжигание в методах MCMC. Мне нужен был хороший набор оценок параметров, чтобы начать мою последовательность испытаний, и поэтому я использовал пятьдесят лет предыдущих данных, чтобы получить хорошую предыдущую плотность, чтобы начать мой проверочный тест. Вторая проблема заключалась в том, что мне требовалась некоторая форма стандартизированного периода для тестирования, чтобы тест не подвергался сомнению. Я использовал два предыдущих бизнес-цикла, датированных NBER.