Глубокое обучение убивает обработку изображений / компьютерное зрение?


52

Я с нетерпением жду регистрации в магистратуре по обработке сигналов и изображений, или, возможно, Computer Vision (я еще не решил), и этот вопрос возник.

Меня беспокоит то, что, поскольку глубокое обучение не требует извлечения признаков и почти не требует предварительной обработки ввода, это убивает обработку изображений (или обработку сигналов в целом)?

Я не специалист по глубокому обучению, но, похоже, он очень хорошо справляется с задачами распознавания и классификации, берущими изображения напрямую, а не вектором признаков, как другие методы.

Есть ли какой-нибудь случай, в котором традиционный подход извлечения признаков + классификации был бы лучше, используя методы обработки изображений, или это умирает из-за глубокого обучения?


3
Повторно открыв это, потому что он имеет большое количество голосов "за", а ответ с наибольшим количеством голосов имеет очень большое количество голосов "против".
Питер К.

1
@ LaurentDuval Я думаю, что каждый ответ был полезным и очень интересным, но в основном ваш и математический (вместе с обсуждением) действительно прояснили тему.
Тони

2
Я хотел бы сделать перекресток в продолжающейся дискуссии. Кто сказал, что глубокое обучение не требует извлечения функций? Исходя из моего собственного практического опыта, мы не должны обучать DNN для необработанных данных. Мы должны сделать некоторые функции извлечения, а также должны иметь некоторое базовое понимание изображения. Глубокое обучение следует использовать с осторожностью, но это также хорошая идея.
Арун Радж

Ответы:


45

Этот пост был обновлен много. Вверху вы можете увидеть ссылку обновления. Ниже приведены варианты исходного ответа. Для краткости: успехи сверточных нейронных сетей и глубокого обучения выглядят как своего рода галилеевская революция. С практической точки зрения классическая обработка сигналов или компьютерное зрение мертвы ... при условии, что у вас достаточно помеченных данных, мало заботятся о явных ошибках классификации ( глубокие изъяны ), есть бесконечная энергия для запуска тестов, не думая об углеродном следе , и не беспокойтесь о рациональных объяснениях. Что касается других, это заставило нас переосмыслить все, что мы делали раньше: извлечение функций, оптимизация (см. Мою коллегу Ж.-К. Песке, работающую над структурами глубоких нейронных сетей, решающими вариационные неравенства), инвариантность, количественная оценка и т. д. Из этого вытекает действительно интересное исследование, которое, мы надеемся, догонит твердо обоснованные принципы и аналогичные показатели.

Обновленные ссылки:

Мы вводим естественные противоборствующие примеры - реальные, неизмененные и встречающиеся в природе примеры, которые приводят к значительному снижению точности классификатора. Мы курируем 7500 естественных состязательных примеров и выпускаем их в тестовом наборе классификаторов ImageNet, который мы называем ImageNet-A. Этот набор данных служит новым способом измерения надежности классификатора. Как и альтернативные примеры l_p, примеры ImageNet-A успешно переносятся в невидимые или черные ящики-классификаторы. Например, в ImageNet-A DenseNet-121 имеет точность около 2%, падение точности примерно на 90%. Восстановить эту точность непросто, потому что примеры ImageNet-A используют глубокие недостатки в существующих классификаторах, включая их чрезмерную зависимость от цвета, текстуры и фоновых сигналов. Мы наблюдаем, что популярные методы обучения для повышения устойчивости имеют небольшой эффект, но мы показываем, что некоторые архитектурные изменения могут повысить устойчивость к естественным состязательным примерам. Дальнейшие исследования необходимы, чтобы обеспечить надежное обобщение этого жесткого набора тестов ImageNet.

Глубокие справочные материалы «шагая» по стандартной обработке сигналов / изображений можно найти внизу. Майкл Элад только что написал « Глубокая, глубокая проблема: влияние глубокого обучения на обработку изображений, математику и человечество» (SIAM News, 2017/05), выдержка:

Затем нейронные сети внезапно вернулись и с удвоенной силой.

Эта трибуна представляет интерес, поскольку демонстрирует переход от традиционной «обработки изображений», пытаясь смоделировать / понять данные, к области правильности без особого понимания.

Этот домен развивается довольно быстро. Это не означает, что оно развивается в каком-то преднамеренном или постоянном направлении. Ни правильно, ни неправильно. Но сегодня утром я услышал следующее высказывание (или это шутка?):

плохой алгоритм с огромным набором данных можно сделать лучше , чем умный алгоритм с pauce данных.

Это была моя очень короткая попытка: глубокое обучение может дать самые современные результаты, но не всегда понятно, почему , и часть нашей работы ученого остается в объяснении, почему что-то работает, каково содержание фрагмента данных , и т.д.

Глубокое обучение требует (огромных) хорошо помеченных баз данных. Каждый раз, когда вы выполняете ручную работу над одиночными или единичными изображениями (т.е. без огромной базы данных), особенно в местах, где вряд ли получатся «бесплатные помеченные изображениями пользователей» (в дополнительном наборе из набора « забавные кошки, играющие в игры и лица ») Вы можете придерживаться традиционной обработки изображений на некоторое время и для получения прибыли. Недавно твит резюмирует , что:

(много) помеченных данных (без пропущенных переменных) является условием прерывания сделки (и не нужно) для многих доменов

Если их убивают (в чем я сомневаюсь в кратчайшие сроки), они еще не мертвы. Поэтому любые навыки, которые вы приобретете в обработке сигналов, анализе изображений, компьютерном зрении, помогут вам в будущем. Это, например, обсуждается в блоге: мы забыли о геометрии в компьютерном зрении? Алекс Кендалл:

Глубокое обучение революционизировало компьютерное зрение. Сегодня не так много проблем, в которых наилучшее решение не основано на сквозной модели глубокого обучения. В частности, популярны сверточные нейронные сети, поскольку они, как правило, работают достаточно хорошо из коробки. Тем не менее, эти модели в основном большие черные ящики. Есть много вещей, которые мы не понимаем о них.

Конкретным примером может быть следующее: пара очень темных (например, видеонаблюдения) изображений из одного и того же места, для которых необходимо оценить, содержит ли одно из них конкретное изменение, которое должно быть обнаружено, потенциально является вопросом традиционной обработки изображений, более чем Глубокое обучение (на сегодняшний день).

С другой стороны, столь же успешный, как и глубокое обучение в больших масштабах, это может привести к неправильной классификации небольших наборов данных, что может быть безвредным «в среднем» для некоторых приложений. Два изображения, которые немного отличаются от человеческого глаза, могут быть классифицированы по-разному с помощью DL. Или случайные изображения могут быть установлены для определенного класса. См., Например, Глубокие нейронные сети легко обмануть: высоконадежные прогнозы для неузнаваемых изображений (Нгуен А., Йосински Дж., Клюн Дж. Proc. Computer Vision и Pattern Recognition 2015), или у глубокого обучения есть глубокие недостатки? На состязательных негативах:

Сеть может неправильно классифицировать изображение после того, как исследователи применили некоторое незаметное возмущение. Возмущения находят путем корректировки значений пикселей, чтобы максимизировать ошибку прогнозирования.

При всем уважении к «глубокому обучению», подумайте о «массовом производстве, отвечающем зарегистрированному, известному, пригодному для массового использования или ожидаемому поведению», а не «единственном произведении искусства». Ни один не лучше (пока) в единой шкале индекса. Оба, возможно, должны сосуществовать некоторое время.

Тем не менее, глубокое обучение проникает во многие новые области, как описано в ссылках ниже.

К счастью, некоторые люди пытаются найти математическое обоснование глубокого обучения, примером которого являются рассеивающие сети или преобразования, предложенные Стефаном Маллатом и соавторами, см. Сайт ENS для рассеяния . Гармонический анализ и нелинейные операторы, функции Липшица, инвариантность перемещения / вращения, лучше для среднего человека, обрабатывающего сигнал. См. Например, Понимание Глубоких Сверточных Сетей .


1
Увеличение количества недостаточно обучаемых данных с использованием надлежащим образом модифицированных копий помогает обобщать глубокое обучение. В последнее время были найдены пути, связанные с необходимостью полной маркировки под наблюдением: неконтролируемое увеличение данных автоматически генерирует метки для немеченой части обучающих данных в полууправляемом обучении и использует эти данные для обучения. (Не стесняйтесь включать эту или подобную информацию в ответ.)
Олли Нимитало

1
Если вы знаете, как увеличить «последовательно». Хорошо с классическими наборами данных, все еще прогуливаясь по научным данным, которыми я буду заниматься (геология, химия)
Лоран Дюваль

@Laurent, о том, что вы сказали: «Наша работа ученых заключается в том, чтобы объяснить, почему все работает» : похоже, что наука о данных - настоящая карьера для кого-то, учитывая серьезную работу над DSP. Есть ли какие-нибудь другие имена, кроме типичного названия "DSP engineer", о котором вы слышали?
JFonseca

21

Во-первых, нет ничего плохого в том, чтобы выполнять дипломную работу по обработке изображений или компьютерному зрению и использовать глубокое обучение. Глубокое обучение не убивает обработку изображений и компьютерное зрение, это всего лишь актуальная тема исследований в этих областях.

Во-вторых, глубокое обучение в основном используется при распознавании категорий объектов. Но это только одна из многих областей компьютерного зрения. Существуют и другие области, такие как обнаружение объектов, отслеживание, 3D-реконструкция и т. Д., Многие из которых по-прежнему зависят от «созданных вручную» функций.


5
Будьте осторожны: DNN очень хорошо способны выполнять все, что вы упомянули: обнаружение объектов, отслеживание, 3D-реконструкцию и т. Д. При этом обработка сигналов - это понимание физических аспектов того, как манипулируют сигналами, и почему мы должны манипулировать ими каким-то образом - и те (я верю) вернутся за объяснением, почему работают адаптивные алгоритмы, такие как DNN. Но не заблуждайтесь - DNN очень хорошо способны к базовым преобразованиям из входных данных и вплоть до (дифференцируемой) целевой цели.
Тарин Зияи

11

Никакое глубокое обучение не убивает обработку изображений. Вам нужны огромные наборы данных и много вычислительных ресурсов для глубокого обучения. Существует множество приложений, в которых желательно иметь возможность выполнять обработку изображений с меньшей вычислительной нагрузкой и меньшими объемами памяти и без доступа к огромным базам данных. Некоторые примеры - мобильные телефоны, планшеты, мобильные камеры, автомобили, квадрокоптеры. Глубокое обучение в настоящее время очень раскручено, поскольку существуют некоторые очень впечатляющие результаты классификации.

Классификация - это одна из многих проблем, с которыми сталкивается Обработка изображений, поэтому, даже если бы это было правдой, глубокое обучение решило бы все проблемы классификации, было бы еще много других типов Обработки изображений. Шумоподавление, регистрация изображений, расчеты движения, морфинг / наложение, повышение резкости, оптические коррекции и преобразования, расчет геометрии, трехмерная оценка, трехмерные модели движения + время, стереозрение, сжатие и кодирование данных, сегментация, размытие, стабилизация движения, компьютерная графика, все виды рендеринга.


Обесценивание, трехмерная оценка и т. Д. Все те, кого вы упомянули, могут быть аппроксимированы и решены с помощью DNN соответствующей архитектуры и соответствующих данных.
Тарин Зияи

1
Да, да, и вы можете делать свои еженедельные покупки в Jaguar (но это не то, почему они построены).
mathreadler

1
Хе-хе, правда - но это не то же самое, что сказать, что вы не можете делать покупки, используя свой ягуар.
Тарин Зияи

Легко наложить полезные ограничения на инженерную проблему, с которой DNN довольно глупы. Например, ограничение на то, что используемый метод не должен быть смещен к определенному набору входных данных. Тогда DNN, разумеется, будут дисквалифицированы по умолчанию, поскольку все они нуждаются в обучении и, следовательно, будут смещены с использованием данных обучения.
mathreadler

Это верно для любого инженерного инструмента: но это не главное. Дело в том, что все те задачи, которые вы упомянули выше, на самом деле очень хорошо могут быть решены с помощью DNN. Да, некоторые из них более недавних событий, но это неправильно ведущего сказать , что они не могут быть решены с DNNS! Вот и все!
Тарин Зияи

11

Сегодня у нас была беседа с моим другом. Здесь, в Мюнхене, был дождливый день, в то время как большая часть Европы имела вид солнечной атмосферы. Люди делились фотографиями в социальных сетях, где они были в красивых летних платьях, бродили по морям. Она была недовольна этой ситуацией, повернулась ко мне и спросила: «Не могли бы вы написать программное обеспечение для блокировки фотографий в социальных сетях, которые включают такие милые фотографии лета, когда погода здесь такая плохая?». Я сказал, почему нет. Все, что вам нужно сделать, это собрать огромный набор летних изображений и негативных примеров, передать его через сеть, которая выполняет бинарную классификацию на уровне «Блок» или «Нет блока». Обучите и настройте сеть. Вот и все.

Затем я повернулся к себе: действительно ли я знаю, как написать простой алгоритм, чтобы решить, хорошая погода или нет, не позволяя машине думать за меня? Едва ... Может быть ... Для любопытного читателя, вот некоторые функции, которые вы могли бы разработать, если вы попытаетесь пойти на это:

Двухклассная классификация погоды, Cewu Lu§ Di Lin, Jiaya Jia, Chi-Keung Tang , CVPR 2014

Очевидно, что в настоящее время я не буду беспокоиться об этой публикации CVPR и просто углублюсь. Итак, насколько мне нравится глубокое обучение для его надежной работы во многих сценариях, я также использую его осторожно. Даже если это не убьет мои знания об обработке изображений, это приведет к снижению знаний о предметной области, которые мне требуются. Интеллектуально это не очень элегантно.

Как только человек решит держать себя на пути и получит выгоду от обоих миров, он / она будет в безопасности.


7

Короткий ответ: нет. DL может распознать кружку на фотографии, но это в любом случае не убивает обработку сигнала. Тем не менее, ваш вопрос весьма актуален в эти смутные дни. Существует панель хорошая дискуссия на эту тему, показывая Стефан Маллат и т.д., здесь .


5

Техника данных по-прежнему используется в машинном обучении для предварительной обработки и выбора данных, передаваемых в DNN, для улучшения их времени обучения и эффективности оценки. Обработка изображений (данные между датчиком камеры и растровыми изображениями RGB и т. Д., Подаваемыми на DNN), форма обработки данных, все еще необходима.


4

Глубокое понимание обработки сигналов (наряду с линейной алгеброй, векторным исчислением, математической статистикой и т. Д.) Крайне необходимо для нетривиальной работы в области глубокого обучения, особенно в области компьютерного зрения.

Некоторые из документов с высокой отдачей в глубоком обучении (теперь, когда была отобрана большая часть низко висящих фруктов) демонстрируют хорошее понимание концепций обработки сигналов.

Несколько мотивационных концепций:

  • Расширенные извилины : проверьте этот пост . Одним из первых уравнений было бы то, что нужно человеку с глубокими познаниями (ха) в концепциях обработки сигналов. Это также тесно связано с алгоритмом trous, найденным в классической обработке вейвлет-сигналов.
  • Транспонированные сверточные слои / Deconv слои. Опять же, основные концепции обработки сигналов.
  • Формирование конвекторных фильтров - необходимо хорошее представление о нормах оператора и сопоставлении сокращений. Обычно это можно найти либо в выпускном курсе EE по теории сигналов или системам управления, либо в математических курсах по анализу (реальный или функциональный).
  • Состязательные примеры : одна из первых работ по исследованию этого ( «Интригующие свойства ...» ) формализовала это в терминах возмущений и использовала константы Липшица различных слоев и нелинейностей в нейронной сети для оценки чувствительности к верхней границе. такие возмущения. Согласитесь, анализ был очень предварительным, но, опять же, я считаю, что это доказывает тот факт, что для достижения нетривиального прогресса во всем, включая глубокое обучение, требуется нетривиальное понимание теории.

Список можно продолжить. Таким образом, даже если вы в конечном итоге будете работать с компьютерным зрением и применять глубокое обучение к своим проблемам, фон обработки сигналов облегчит вам задачу.


1
Да. Любой ярлык для того, чтобы не изучать, что подавать в сеть, придется усердно изучать из-за худшей производительности.
mathreadler

4

Я действительно мало занимаюсь обработкой изображений, но я работал в организации (ВМС США), которая проводила и финансировала исследования в области классификации сигналов в последний раз, когда нейронные сети были горячей темой, с середины до конца 80-х годов. Я должен был пройти через большое количество маркетинговых материалов. Аргументы были такими:

  • Это Нейронный, как ваш мозг, и, поскольку он превзошел линейный классификатор, он превосходит статистические методы. Я на самом деле знаю некоторых людей, чьи документы были отклонены, потому что они использовали статистику для оценки эффективности.
  • Нейронные сети являются индуктивными, они могут правильно классифицировать вещи, если ни одного или нескольких примеров не было в их обучающих наборах.
  • DARPA финансирует работу, и мы все знаем, что все, что делает DARPA, является победителем. (Google еще не было)
  • Разве производительность не замечательна, не нужна матрица путаницы, не нужны классовые приоры, я могу просто сказать, какова моя вероятность ошибки. Не нужно никаких границ, я просто сделаю трюки на вынос и переподготовку.
  • Выберите некоторые функции и воспользуйтесь этим, это черный ящик, масштабирование, выравнивание данных, отказ от беспорядка, плохие метки, появление нескольких классов, не моя проблема.
  • Математический туман, машины Больцмана
  • Давайте добавим SVD и, возможно, фрактальное измерение.
  • Под надзором / без присмотра приманкой и переключателем я найду все ваши скрытые паттерны. Разве эта ассоциативная память не глубока?

Книга Бишопа понадобилась, чтобы смягчить мой цинизм.

В более чем нескольких приложениях оптимальный алгоритм обработки сигналов потребует исчерпывающего поиска по перечислению по большому пространству параметров, которое быстро становится неразрешимым. Большая ферма серверов может увеличить это достижимое пространство поиска, но в какой-то момент вам нужно найти эвристику. DL, кажется, может найти некоторые из этих эвристик, но это не решает сложную оптимизацию NP.


Вы совершенно правы в том, что подавляете цинизм, потому что кажется, что это подавляет многих людей. Иногда мне хотелось бы узнать это раньше в жизни.
mathreadler

3

С точки зрения университета, многие люди, которые занимаются обработкой сигналов, были немного враждебны по отношению к ОД, я подозреваю, потому что они чувствовали угрозу, что это покушается на их область. Но в последнее время было проведено много исследований преимуществ комплексных глубоких нейронных сетей, что может свидетельствовать о том, что золотой билет действительно является хорошим пониманием обеих дисциплин.


1
Ага. Обработка сигналов очень тесно связана с машинным обучением. Твердое понимание обработки сигналов помогает понять, как создавать и использовать алгоритмы ML и какие данные (не) подходят для их подачи.
mathreadler

2

Ну да. Точно так же, как разработка на языках программирования более высокого уровня, таких как C ++ и Python, «убила» ассемблерное программирование. Это не означает, что изучать ассемблер при обучении на курсе CS не имеет значения. Он дает отличное представление о том, как работает компьютер, что происходит за кулисами языков более высокого уровня, каковы основные принципы языка программирования и т. Д. Но теперь никто в здравом уме не будет программировать настольное приложение в сборке.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.