Во-первых, спасибо за размещение очень интересного вопроса.
Чтобы ответить на него в ближайшее время, обученный конец-конец-ванильный ванильный конек для прогнозирования возраста по фотографии будет обычно склонен к неправильной классификации изображений, таких как тот, который вы опубликовали . Во-вторых, обратите внимание, что точная оценка возраста человека является почти невозможной задачей 1 .
Основное отличие от предложенного вами подхода с использованием некоторых детекторов объектов (будь то RCNN, Faster RCNN, YOLO или SSD) заключается в том, что вы используете различную информацию для обучения моделей. CNN обучен только на изображениях и должен сам выяснить все необходимые функции. Скорее всего, он найдет различные черты лица, но он также будет опираться на одежду и, возможно, особенности сцены (дети могут часто быть на фотографии с некоторыми игрушками, взрослые чаще будут в офисе и т. Д.). Эти функции не будут надежными для вашего контрпример.
С другой стороны, если вы обучаете сеть явно обнаруживать объекты как «туловище» и «голова», вы предоставляете дополнительную информацию о том, что эти объекты важны для задачи, и таким образом упрощаете задачу 2 .
Хотя подход обнаружения головы и туловища, а затем оценки соотношения размеров ограничивающих рамок звучит интересно, я вижу несколько препятствий:
- Получение данных: мне неизвестно о наличии большого набора данных, в котором будут присутствовать как возраст, так и ограничительные рамки.
- Несовершенное поле зрения: на большинстве изображений (например, на обоих примерах) люди отображаются не целиком. Вам придется иметь дело с тем фактом, что ограничивающие прямоугольники туловища не всегда будут идеальными, просто потому, что часть человека не изображена на изображении, а сеть должна будет угадать, какая большая часть отсутствует (а наземные ограничивающие прямоугольники будут наиболее скорее всего не уловят эту информацию). Кроме того, вышеупомянутые детекторы объектов не всегда правильно обрабатывают предсказания частичных объектов. Это может внести слишком много шума в модель.
- Различные позы: соотношение туловища и головы будет очень разным для людей, если смотреть спереди и сбоку.
- Взрослые: кажется, что соотношение хорошо подходит для прогнозирования возраста от 0 до 21 года, но я не понимаю, как это могло бы помочь в прогнозировании возраста взрослых (полагаю, соотношение не меняется в старшем возрасте).
Все эти проблемы предполагают, что подход соотношения головы к туловищу также не будет работать идеально, хотя он может быть более устойчивым к вашему конкретному контрпримеру.
Я полагаю, что наилучшим способом выполнения этой задачи было бы: 1) определить лицо, 2) предсказать возраст только по культуре лица (удаляет потенциально вводящую в заблуждение информацию). Обратите внимание, что некоторая R-CNN-подобная архитектура, использующая пул ROI, может быть обучена этому концу 2-конца.
1 Даже с использованием очень сложных медицинских методов (которые, возможно, гораздо более информативны, чем фотография человека) это невозможно сделать точно. Смотрите эту тему Quora для получения дополнительной информации .
2 Просмотрите статью « Вопросы знаний: важность предварительной информации для оптимизации», чтобы узнать, как предоставление промежуточных знаний о задаче может значительно упростить обучение.