Влияет ли формат изображения (png, jpg, gif) на обучение нейронной сети распознавания изображений?

23

Я знаю, что было много достижений в отношении распознавания изображений, классификации изображений и т. Д. С глубокими, сверточными нейронными сетями.

Но если я обучу сеть, скажем, PNG-изображениям, будет ли она работать только для изображений, закодированных таким образом? Какие другие свойства изображения влияют на это? (альфа-канал, чересстрочная развертка, разрешение и т. д.?)

neural-networks deep-learning image-processing

— Фелипе Алмейда
источник

2

У меня недостаточно опыта со статистикой изображений, чтобы дать уверенный ответ, но я ожидаю, что разные модели используют совершенно разные схемы для кодирования изображений в функции, на некоторые из которых будут влиять сжатие JPEG с потерями, альфа-каналы и т. Д. ., и некоторые из которых не будут, с деталями, зависящими от модели. Я знаю, что существуют как модели, которые рассматривают каждый пиксель как элемент, так и модели, которые делят изображения на области и используют свойства областей как элементы.

— Кодиолог

20

Краткий ответ - НЕТ .

Формат, в котором закодировано изображение, имеет отношение к его качеству. Нейронные сети - это по сути математические модели, которые выполняют множество операций (матричные умножения, поэлементные сложения и функции отображения). Нейронная сеть видит в качестве входных данных тензор (т.е. многомерный массив). Его форма обычно 4-D (количество изображений в пакете, высота изображения, ширина изображения, количество каналов).

Разные форматы изображений (особенно с потерями) могут создавать разные входные массивы, но строго говоря, нейронные сети видят массивы на своих входах, а НЕ изображения.

— Djib2011
источник

4

Хотя ответ Djib2011 правильный, я понимаю, что ваш вопрос более сфокусирован на том, как качество / свойства изображения влияют на обучение нейронной сети в целом. В этой теме мало исследований (afaik), но в будущем, возможно, будет больше исследований по этому вопросу. Я только нашел эту статью на нем. Проблема в настоящее время состоит в том, что это больше проблема, возникающая в практических приложениях, а не в области научных исследований. Я помню один текущий подкаст, где исследователи наблюдали, что даже камера, которая использовалась для съемки, могла иметь большой эффект.

— Bobipuegi
источник

Не могли бы вы указать мне на подкаст, пожалуйста?

— Дэвид Эрнст

Это одночасовой эпизод «говорящих машин», где они обсуждают с исследователем, практикующим машинное обучение в Африке (примерно от середины до конца), ссылка на iTunes: itunes.apple.com/de/podcast/talking-machines/…

— Бобипуэги

2

Это рифф на первый ответ от Djib2011. Краткий ответ должен быть нет. Длиннее - во-первых, фотографии всегда кодируются как тензор следующим образом. Изображение представляет собой количество пикселей. Если считается, что фотография имеет m строк и n столбцов, каждый пиксель определяется своим расположением строки и столбца, то есть парой (m, n). В частности, есть m * n пикселей, которые очень велики даже для «маленьких» фотографий. Каждый пиксель фотографии кодируется числом от нуля до единицы (интенсивность черноты), если фотография черно-белая. Кодируется тремя числами (интенсивность RGB), если фотография цветная. Таким образом, получается тензор 1xmxn или 3xmxn. Распознавание изображений осуществляется с помощью CNN, которые, используя тот факт, что фотографии не сильно меняются от пикселя к пикселю, сжимаютданные через фильтры и пул. Таким образом, дело в том, что работа CNN заключается в сжатии невероятно большого количества точек данных (или функций) фотографии в меньшее количество значений. Итак, в каком бы формате вы ни начинали, CNN начинает с дальнейшего сжатия данных фотографии. Отсюда и независимость как таковая от размера представления фотографии.
Однако CNN потребует, чтобы все изображения, проходящие через него, имели одинаковый размер. Таким образом, эта зависимость будет меняться в зависимости от того, как изображение сохранено. Кроме того, поскольку разные форматы файлов одинакового размера дают разные значения для их тензоров, нельзя использовать одну и ту же модель CNN для идентификации фотографий, хранящихся разными методами.

— Мех
источник