Наилучший подход - собрать как можно больше данных. Тогда начните с проекта и создайте модель данных.
Теперь вы можете оценить свою модель, чтобы увидеть, имеет ли она высокий уклон или высокую дисперсию.
Высокая дисперсия : в этой ситуации вы увидите, что ошибка перекрестной проверки выше, чем ошибка обучения после конвергенции. Существует существенный разрыв, если вы строите график в зависимости от размера данных обучения.
Высокий уклон . В этой ситуации ошибка перекрестной проверки немного выше, чем ошибка обучения, которая сама по себе высока при построении графика в зависимости от размера данных тренировки. Я имею в виду, что при построении графика в зависимости от размера данных тренировки вы можете вводить подмножества данных тренировки, которые у вас есть, и продолжать увеличивать размер подмножества и сюжетные ошибки.
Если вы видите, что ваша модель имеет высокую дисперсию (избыточное соответствие), добавление дополнительных данных обычно помогает в отличие от модели с высоким смещением (недостаточное соответствие), где добавление новых данных обучения не помогает.
Также для каждого класса вы должны попытаться получить одинаковое количество изображений, иначе наборы данных могут стать искаженными (более одного вида).
Также я предлагаю, если вы используете TensorFlow , узнайте больше о классификаторе изображений INCEPTION от GOOGLE . Это уже обученный классификатор в базе данных изображений Google, и вы можете использовать его для своих изображений, поэтому требования к количеству изображений резко снижаются.