AlphaGo Нулевая статья от природы , «Освоение игры Го без человеческого знания», утверждает четыре основных отличия от предыдущей версии:
- Только для самообучения (не тренируется на людских играх)
- Использование только доски и камней в качестве входных данных (без рукописных функций).
- Использование единой нейронной сети для политик и ценностей
- Новый алгоритм поиска по дереву, который использует эту объединенную сеть политики / стоимости, чтобы указать, где искать удачные ходы.
Пункты (1) и (2) не являются новыми в изучении подкрепления, но улучшают предыдущее программное обеспечение AlphaGo, как указано в комментариях к вашему вопросу. Это просто означает, что они теперь используют чистое обучение подкреплению, начиная со случайно инициализированных весов. Это обеспечивается лучшими, более быстрыми алгоритмами обучения.
Здесь они утверждают: «Наш основной вклад - продемонстрировать, что сверхчеловеческие характеристики могут быть достигнуты без знания человеческой сферы». (с. 22).
Пункты (3) и (4) являются новыми в том смысле, что их алгоритм проще и более общий, чем их предыдущий подход. Они также упоминают, что это улучшение предыдущей работы Guo et al.
Унификация сети политики / ценности (3) позволяет им реализовать более эффективный вариант поиска по дереву Монте-Карло для поиска удачных ходов и одновременного использования дерева поиска для более быстрого обучения сети (4). Это очень сильно.
Кроме того, они описывают ряд интересных деталей реализации, таких как пакетирование и повторное использование структур данных, чтобы оптимизировать поиск новых шагов.
Эффект заключается в том, что ему требуется меньше вычислительной мощности, поскольку он работает на 4 TPU, а не на 176 GPU и 48 TPU для предыдущих версий их программного обеспечения.
Это определенно делает его «новым» в контексте программного обеспечения Go. Я полагаю, что (3) и (4) также являются «новыми» в более широком контексте и будут применимы в других областях обучения подкреплению, таких как, например, робототехника.