Ключевыми словами здесь являются приоры и масштаб . В качестве простого примера представьте, что вы пытаетесь предсказать возраст человека по фотографии. Имея набор данных изображений и возрастов, вы можете обучить модель глубокого обучения прогнозированию. Это объективно действительно неэффективно, потому что 90% изображения бесполезно, и только область с человеком действительно полезна. В частности, лицо человека, его тело и, возможно, его одежда.
С другой стороны, вы могли бы вместо этого использовать предварительно обученную сеть обнаружения объектов, чтобы сначала извлечь ограничивающие рамки для человека, обрезать изображение, а затем передать его через сеть. Этот процесс значительно улучшит точность вашей модели по ряду причин:
1) Все ресурсы сети (т. Е. Веса) могут сосредоточиться на фактической задаче прогнозирования возраста, в отличие от необходимости сначала найти человека. Это особенно важно, потому что лицо человека содержит полезные функции. В противном случае тончайшие функции, которые вам нужны, могут потеряться в первых нескольких слоях. Теоретически, достаточно большая сеть может решить эту проблему, но это будет крайне неэффективно. Обрезанное изображение также значительно более обычное, чем исходное. В то время как исходное изображение имеет массу шума, его спорные расхождения в обрезанном изображении гораздо более тесно связаны с целью.
2) Обрезанное изображение можно нормализовать, чтобы иметь тот же масштаб . Это помогает второй сети справиться с проблемами масштабирования, потому что в исходном изображении люди могут находиться рядом или далеко. Предварительная нормализация масштаба позволяет сделать так, чтобы в кадрированном изображении был человек, который заполняет полностью кадрированное изображение (несмотря на то, что оно было пикселировано, если они были далеко). Чтобы увидеть, как это может помочь в масштабировании, обрезанное тело, составляющее половину ширины и высоты исходного изображения, имеет в 4 раза меньше пикселей для обработки, и, следовательно, та же сеть, примененная к этому изображению, будет иметь 4-кратное восприимчивое поле исходной сети на каждом слое.
Например, в конкурсе легких легких, общей темой в лучших решениях была какая-то предварительная обработка изображений легких, которые максимально обрезали их и изолировали компоненты каждого легкого. Это особенно важно для трехмерных изображений, поскольку эффект является кубическим: удаляя 20% каждого измерения, вы избавляетесь почти от половины пикселей!