В последние годы сверточные нейронные сети (CNN) стали современным средством распознавания объектов в компьютерном зрении. Как правило, CNN состоит из нескольких сверточных слоев, за которыми следуют два полностью связанных слоя. Интуиция в этом заключается в том, что сверточные слои изучают лучшее представление входных данных, а полностью связанные слои затем учатся классифицировать это представление на основе набора меток.
Однако до того, как CNN начали доминировать, машины опорных векторов (SVM) были самыми современными. Поэтому кажется разумным сказать, что SVM по-прежнему является более сильным классификатором, чем двухслойная полностью подключенная нейронная сеть. Поэтому мне интересно, почему современные CNN используют тенденцию использовать полностью связанные слои для классификации, а не SVM? Таким образом, вы получите лучшее из обоих миров: сильное представление признаков и сильный классификатор, а не сильное представление признаков, а только слабый классификатор ...
Есть идеи?