По предложению OP rcpinto я конвертировал комментарий о том, что он «увидел около полудюжины статей, которые следят за работой Грейвса и др., Которые дали результаты калибра», и предоставит несколько ссылок. Имейте в виду, что это отвечает только на часть вопроса, относящуюся к NTM, а не к самому Google DeepMind, плюс я все еще изучаю веревки в машинном обучении, поэтому некоторые материалы в этих статьях у меня над головой; Мне удалось понять большую часть материала из оригинальной статьи Грэйвса и др. {1], и я близок к тому, чтобы создать собственный код NTM для тестирования. Я также, по крайней мере, просмотрел следующие документы за последние несколько месяцев; они не копируют исследование НТМ в строгой научной манере, но многие из их экспериментальных результатов имеют тенденцию поддерживать оригинал по крайней мере косвенно:
• В этом документе о варианте версии адресации NTM, Gulcehere, et al. не пытайтесь точно копировать тесты Грейвса и др., но, как и команда DeepMind, она демонстрирует заметно лучшие результаты для исходного NTM и нескольких вариантов по сравнению с обычным рекуррентным LSTM. Они используют 10 000 обучающих образцов набора данных вопросов и ответов Facebook, а не N-граммы Graves et al. оперировал в своей статье, так что это не тиражирование в самом строгом смысле. Тем не менее, им удалось получить версию исходного NTM и несколько вариантов, а также зафиксировать такое же увеличение производительности. 2
• В отличие от оригинального NTM, в этом исследовании была протестирована версия обучения с подкреплением, которая не была дифференцируемой; Возможно, именно поэтому они не смогли решить некоторые из программных задач, таких как Repeat-Copy, если только контроллер не ограничивался движением вперед. Их результаты, тем не менее, были достаточно хорошими, чтобы поддержать идею НТМ. По-видимому, имеется более поздняя редакция их статьи, которую я еще не прочитал, поэтому, возможно, некоторые из их вариантов были решены. 3
• Вместо того, чтобы тестировать оригинальный вид NTM в сравнении с обычными нейронными сетями, такими как LSTM, этот документ сравнил его с несколькими более продвинутыми структурами памяти NTM. Они получили хорошие результаты в тех же задачах, что и программирование, которые Graves et al. протестировано, но я не думаю, что они использовали один и тот же набор данных (по тому, как написано их исследование, трудно сказать, над какими наборами данных они работали). 4
• На стр. 8 этого исследования NTM явно превосходит несколько схем LSTM, прямой связи и схем на основе ближайшего соседа в наборе данных распознавания символов Omniglot. Альтернативный подход к внешней памяти, созданный авторами, явно превосходит его, но он, очевидно, работает хорошо. Авторы, кажется, принадлежат к конкурирующей команде в Google, так что это может быть проблемой при оценке тиражируемости. 5
• На стр. 2 эти авторы сообщили о том, что в тестовых заданиях на копирование получено лучшее обобщение «очень больших последовательностей» с использованием гораздо меньшей сети NTM, которую они развили с помощью генетического алгоритма NEAT, который динамически увеличивает топологии. 6
Я полагаю, что NTM довольно новы, поэтому у них не было много времени для строгого воспроизведения оригинального исследования. Горстка бумаг, которые я пролистал за лето, тем не менее, кажется, поддерживает их экспериментальные результаты; Я еще не видел ни одного, который сообщит ничего, кроме превосходной производительности. Конечно, у меня есть предвзятость доступности, так как я читаю только те PDF-файлы, которые легко найти в небрежном поиске в Интернете. Из этой небольшой выборки кажется, что большая часть последующих исследований была сосредоточена на расширении концепции, а не на репликации, что объясняло бы отсутствие данных о воспроизводимости. Надеюсь, это поможет.
1 Могилы, Алекс; Уэйн, Грег и Данихелка, Иво, 2014, «Нейронные машины Тьюринга», опубликовано 10 декабря 2014 года.
2 Gulcehre, Caglar; Чандар, Сарат; Чой, Kyunghyun и Bengio, Yoshua, 2016, «Динамическая машина нейронного Тьюринга с схемами мягкой и жесткой адресации», опубликовано 30 июня 2016 года.
3 Zaremba, Wojciech and Sutskever, Ilya, 2015, «Укрепление обучающихся нейронных машин Тьюринга», опубликовано 4 мая 2015 года.
4 Чжан; Вэй; Yu, Yang and Zhou, Bowen, 2015, «Структурированная память для нейронных машин Тьюринга», опубликовано 25 октября 2015 года.
5 Санторо, Адам; Бартунов Сергей; Ботвиник, Мэтью; Wierstra, Daan and Lillicrap, Timothy, 2016, «Обучение одним выстрелом с нейронными сетями, дополненными памятью», опубликовано 19 мая 2016 года.
6 Болл Грев, Расмус; Якобсен, Эмиль Джуул и Себастьян Риси, дата неизвестна, «Развитие нейронных машин Тьюринга». Нет издателя в списке
Все, кроме (возможно) Boll Greve et al. были опубликованы в библиотеке Корнелльского университета arXiv.org Репозиторий: Итака, Нью-Йорк.