CNN научится распознавать закономерности в пространстве. Итак, как вы говорите, CNN научится распознавать компоненты изображения (например, линии, кривые и т. Д.), А затем научится комбинировать эти компоненты для распознавания более крупных структур (например, граней, объектов и т. Д.).
Можно сказать, что в общих чертах RNN также научится распознавать шаблоны во времени. Поэтому RNN, который обучен переводу текста, может узнать, что «собака» должна переводиться по-другому, если перед ней стоит слово «горячий».
Однако механизм, с помощью которого два вида NN представляют эти шаблоны, различен. В случае CNN вы ищете одинаковые шаблоны во всех различных подполях изображения. В случае RNN вы (в простейшем случае) подаете скрытые слои из предыдущего шага в качестве дополнительного входа в следующий шаг. В то время как RNN создает память в этом процессе, он не ищет одни и те же шаблоны в разные промежутки времени так же, как CNN ищет одни и те же шаблоны в разных областях пространства.
Я также должен отметить, что когда я говорю здесь «время» и «пространство», это не должно восприниматься слишком буквально. Например, вы можете запустить RNN на одном изображении для подписи к изображению, и значение «время» будет просто порядком, в котором обрабатываются разные части изображения. Таким образом, объекты, которые были обработаны изначально, будут сообщать заголовки объектов, которые будут обработаны позже.