Я предполагаю, что самое главное, что образцы в ваших данных хорошо распределены, потому что независимо от того, сколько у вас данных, больше данных всегда будет лучше. В конце концов, если вы попытаетесь научиться различать картинки с кошками и собаками, вы не сможете ожидать, что ваша модель будет работать хорошо, если будете кормить ее только изображениями кошек.
Как следует из ответа Кевина Л. , имеет смысл рассмотреть разницу между ошибкой обучения и ошибкой тестирования. Если ваши данные тестирования не зависят от ваших данных обучения, это дает представление о том, насколько хорошо ваша модель обобщает данные, которые недоступны. Я хотел бы добавить к этому тот факт, что большая разница между тренировкой и ошибкой тестирования только говорит о том, что ваша модель плохо обобщается, то есть вы перегружены данными обучения. Вероятно, поможет больше данных, потому что теперь сети также необходимо моделировать дополнительные точки данных, и, следовательно, они больше не могут соответствовать этому. Тем не менее, может быть целесообразнее изменить модель, чтобы она лучше обобщалась. Эта глава из отличной книги объясняет, какие существуют виды регуляризации и как их можно применять в сетях для лучшего обобщения.
Если вы искали более количественную меру, я недавно нашел этот вопрос о кворе, Речь идет об авто-кодировщике, но я думаю, что это также должно быть применимо к вашему примеру. Я понятия не имею, правильно ли это (пожалуйста, дайте мне знать), но я бы сказал, что, например, для MNIST можно утверждать, что вы пытаетесь уменьшить изображения с максимальным значением 28 * 28 * 8 * 10 000 = 62 720 000 биты энтропии до десяти классов в однократном кодировании с 10 * 10 * 10 000 = 1 000 000 бит энтропии. Поскольку нас интересует только 1 000 000 бит энтропии на выходе, мы можем сказать, что при 1 000 000 параметров каждый параметр представляет один бит, который составляет 1e-4 бита на выборку. Это означает, что вам нужно больше данных. Или у вас слишком много параметров, потому что, например, при 100 параметрах у вас есть 10 000 бит на параметр и, следовательно, 1 бит на выборку. Тем не мение,