Я работаю над большим количеством статистических моделей, таких как скрытые марковские модели и модели гауссовой смеси. Я вижу, что для обучения хороших моделей в каждом из этих случаев требуется большой (> 20000 предложений для НММ) объем данных, который берется из аналогичных сред в качестве конечного использования. Мой вопрос:
- Существует ли в литературе понятие «достаточно» обучающих данных? Сколько тренировочных данных «достаточно хорошо»?
- Как я могу вычислить, сколько предложений необходимо для «хороших» (которые дают хорошую точность распознавания (> 80%)) обучаемых моделей?
- Как мне узнать, была ли модель обучена правильно? Начнут ли коэффициенты в модели демонстрировать случайные флуктуации? Если да, то как отличить случайные колебания от реальных изменений в результате обновления модели?
Пожалуйста, не стесняйтесь пометить этот вопрос, если ему нужно больше тегов.