Я надеюсь, что следующие выдержки дадут представление о том, каким будет мой вопрос. Это из http://neuralnetworksanddeeplearning.com/chap3.html
Затем обучение постепенно замедляется. Наконец, примерно в эпоху 280 точность классификации почти перестает улучшаться. Более поздние эпохи просто видят небольшие стохастические флуктуации вблизи значения точности в эпоху 280. Сравните это с более ранним графиком, где стоимость, связанная с данными обучения, продолжает плавно снижаться. Если мы просто посмотрим на эту стоимость, похоже, что наша модель все еще становится «лучше». Но результаты теста показывают, что улучшение - иллюзия. Точно так же, как модель, которой не понравился Ферми, то, что наша сеть узнает после эпохи 280, больше не обобщает данные испытаний. И поэтому это не полезно учиться. Мы говорим, что сеть переоснащается или перетренируется после эпохи 280.
Мы обучаем нейронную сеть, и стоимость (по данным обучения) снижается до эпохи 400, но точность классификации становится статичной (за исключением нескольких стохастических колебаний) после эпохи 280, поэтому мы приходим к выводу, что модель перегружается данными обучения после эпохи 280.
Мы видим, что стоимость данных испытаний улучшается примерно до 15-й эпохи, но после этого она фактически начинает ухудшаться, хотя стоимость данных обучения продолжает улучшаться. Это еще один признак того, что наша модель переоснащается. Однако возникает загадка: следует ли рассматривать эпоху 15 или эпоху 280 как точку, в которой переоснащение начинает доминировать в обучении? С практической точки зрения, что нас действительно волнует, так это повышение точности классификации данных испытаний, в то время как стоимость данных испытаний составляет не более, чем показатель точности классификации. И поэтому имеет смысл рассматривать эпоху 280 как точку, за которой переобучение доминирует в обучении в нашей нейронной сети.
В отличие от точности классификации данных испытаний по сравнению с затратами на обучение, которые мы ранее выполняли, мы теперь сопоставляем стоимость данных испытаний с затратами на обучение.
Затем в книге объясняется, почему 280 - это правильная эпоха, когда началось переоснащение. Вот с чем у меня проблема. Я не могу обернуть голову вокруг этого.
Мы просим модель минимизировать стоимость, и, следовательно, стоимость является метрикой, которую она использует как показатель собственной силы для правильной классификации. Если мы рассматриваем 280 как правильную эпоху, когда началось переоснащение, разве мы не создали необъективную модель, которая хотя и является лучшим классификатором для конкретных тестовых данных, но тем не менее принимает решения с низкой достоверностью и, следовательно, более склонна отклоняться? из результатов, показанных на данных испытаний?