Характеристики изображений, которые делают их пригодными для классификации с помощью глубокой нейронной сети, заключаются в том, что имеется масса функций (возможно, миллионы, если не миллиарды пикселей с RGB, интенсивностью и т. Д.), И если у вас есть точные метки, это не шумные данные. Камеры в наши дни очень хороши, и они ничего не измеряют. Благодаря Интернету у нас теперь есть много точно помеченных изображений. Глубокая сеть может выражать произвольно сложные функции, что является проблемой с шумными данными, потому что вы можете очень легко переопределить шум, поэтому многие методы обучения имеют тенденцию наказывать сложные модели. Однако в случае распознавания изображений истинная функция кажется очень сложной, мы не имеем представления о том, как выглядит функциональная форма, и мы даже не знаем, каковы соответствующие функции во многих случаях.
Это не значит, что вы не можете использовать глубокие сети для изучения функций, не имеющих ничего общего с изображениями. Вам просто нужно быть очень осторожным в отношении недостатков, в основном из-за того, что они очень склонны к переоснащению, а также из-за того, что они требуют больших вычислительных ресурсов и могут занимать много времени на обучение (в наши дни это не такая большая проблема с параллельными SGD и GPU). Другим недостатком является то, что у вас практически нет интерпретируемой модели, что не имеет значения для классификации изображений. Мы просто пытаемся заставить компьютеры распознать разницу между шимпанзе и орангутаном. Человеческое понимание формулы не имеет значения. В других областях, особенно в медицинской диагностике, исследованиях в области политики и т. Д., Вам необходимо или даже может потребоваться понимание человеком.