Учитывая иерархическую модель , я хочу двухэтапный процесс, чтобы соответствовать модели. Сначала исправьте несколько гиперпараметров , а затем сделайте байесовский вывод по остальным параметрам . Для фиксации гиперпараметров я рассматриваю два варианта.θ ϕ
- Используйте эмпирический байесовский анализ (EB) и максимизируйте предельное правдоподобие (объединяя остальную часть модели, которая содержит параметры высокого измерения).
- Используйте методы перекрестной проверки (CV) , такие как перекрестная проверка в кратном порядке, чтобы выбрать которое максимизирует вероятность .θ p ( данные испытаний | тренировочные данные , θ )
Преимущество EB в том, что я могу использовать все данные одновременно, в то время как для CV мне нужно (потенциально) вычислить вероятность модели несколько раз и искать . Эффективность EB и CV во многих случаях сравнимы (*), и часто EB оценивается быстрее.
Вопрос: Есть ли теоретическая основа, которая связывает два (скажем, EB и CV одинаковы в пределе больших данных)? Или связывает EB с некоторым критерием обобщения, таким как эмпирический риск? Может кто-нибудь указать на хороший справочный материал?
(*) В качестве иллюстрации приведена фигура из машинного обучения Мерфи , раздел 7.6.4, где он говорит, что для регрессии гребня обе процедуры дают очень похожий результат:
Мерфи также говорит, что основное практическое преимущество эмпирического байесовского алгоритма (он называет это «процедурой доказательства») перед CV заключается в том, что состоит из множества гиперпараметров (например, отдельного штрафа за каждую функцию, например, при автоматическом определении релевантности или ARD). Там вообще невозможно использовать CV.