При попытке выбора между различными моделями или количеством функций, например, для прогнозирования, я могу придумать два подхода.
- Разделите данные на обучающие и тестовые наборы. Еще лучше использовать начальную загрузку или перекрестную проверку в k-кратном порядке. Каждый раз тренируйтесь на тренировочном наборе и рассчитывайте погрешность на тестовом наборе. Ошибка проверки графика в зависимости от количества параметров. Обычно вы получаете что-то вроде этого:
- Вычислите вероятность модели, интегрируя значения параметров. то есть, вычислить ; и черчения это против числа параметров. Затем мы получаем что-то вроде этого:
Итак, мои вопросы:
- Подходят ли эти подходы для решения этой проблемы (решение, сколько параметров включить в вашу модель, или выбор из ряда моделей)?
- Они эквивалентны? Возможно нет. Дадут ли они одну и ту же оптимальную модель при определенных допущениях или на практике?
- Помимо обычной философской разницы в определении предшествующих знаний в байесовских моделях и т. Д., Каковы плюсы и минусы каждого подхода? Какой бы вы выбрали?
Обновление: я также нашел связанный вопрос по сравнению AIC и BIC. Кажется, что мой метод 1 асимптотически эквивалентен AIC, а метод 2 асимптотически связан с BIC. Но я также читал там, что BIC эквивалентен Leave-One-Out CV. Это означало бы, что минимум ошибки обучения и максимум байесовского правдоподобия эквивалентны, когда LOO CV эквивалентно K-кратному CV. Возможно, очень интересная статья Джун Шао « Асимптотическая теория выбора линейной модели » относится к этим вопросам.