Новый ИИ побеждает на ходу. Может ли подобный ИИ выиграть в шахматы? Можно ли достичь чистого самообучения?


20

Один из наиболее популярных вопросов, задаваемых на этом сайте, касается перспективы чисто самообучающегося шахматного ИИ.

Сегодня ChessBase отвлекается от освещения турнира кандидатов в ФИДЕ, чтобы сообщить, что новый ИИ впервые побеждает ведущего мастера совершенно другой игры в го, которая в течение многих лет сопротивлялась ИИ в шахматном стиле. Первоначальное прочтение отчета предполагает, что новый ГИ-ИИ не похож на шахматные ИИ, но больше похож на ИИ общего игрового процесса (GGP). Статья ChessBase, однако, не использует термин GGP, но, похоже, говорит, что искусственный интеллект может выиграть в простых видеоиграх.

Есть ли какая-то причина, по которой такой выигрышный ход AI не мог с небольшими корректировками выиграть и в шахматы? Если да, то обещает ли такой ИИ достичь чистого самообучения, о котором ранее уже обсуждалось несколько превосходных ответов на предыдущий вопрос, что в то время еще не было возможно? Почему или почему нет?

Я подозреваю, что по-настоящему полного, полностью информированного ответа на мой вопрос пока не имеется, поэтому будет признателен даже частичный ответ, основанный на соответствующих знаниях.

Для дополнительной справки см. Также этот связанный вопрос и ответы.

ОБНОВИТЬ

Когда вышеупомянутый вопрос был впервые опубликован пять дней назад, и когда были даны некоторые из прекрасных ответов ниже, только что появились первые новости о победе Го ИИ. С тех пор появилась дополнительная информация и комментарии.

Особенно интересным с тех пор была читаемая пятисторонняя дискуссия за круглым столом, в которой Джонатан Шеффер замечает:

Обучение на человеческих играх помогает ускорить процесс обучения. AlphaGo может научиться самостоятельно становиться сильным игроком, не используя человеческие игры. Процесс обучения займет больше времени.

По словам ведущего круглого стола, Шеффер - «профессор компьютерных наук в университете Альберты и человек, который решал шашки»; так что, по-видимому, он может быть компетентным комментировать.

Для получения дополнительной информации, вот отчет о другом открытом обсуждении, многие из участников которого кажутся лучше информированными, чем обычно. Обсуждение проходило во время матча.

Дальнейшее обновление, полтора года спустя: комментатор @MarkS. пишет:

Это просто комментарий, потому что речь идет о Го, а не о Шахматах, но AlphaGo Zero добился «чистого самообучения» только благодаря тому, что ему сообщили, кто выиграл (а не окончательный счет), и он сильнее и намного эффективнее, чем ИИ, победивший Ли Седола. , Для получения дополнительной информации см. Deepmind.com/blog/alphago-zero-learning-scratch


Я предлагаю вам спросить об этом на более технических форумах. ИИ - сложная тема, и для ее понимания необходимо иметь значительный опыт. Глядя на ответы здесь, я не уверен, что вы получите разумный ответ.
Сальвадор Дали

5
Полученные ответы очень ценятся. Я проголосовал более чем за одного. Если я еще не принял ни одного, это не критика ответов, а признание того, что вопрос настолько сложный, а тема настолько новая, что приемлемый ответ может быть еще недоступен. Давайте пока оставим этот вопрос открытым, чтобы узнать, станет ли через некоторое время ответ, недоступный сегодня, позже. Благодарю.
THB

1
Это просто комментарий, потому что речь идет о Го, а не о Шахматах, но AlphaGo Zero добился «чистого самообучения» только благодаря тому, что ему сообщили, кто выиграл (а не окончательный счет), и он сильнее и намного эффективнее, чем ИИ, победивший Ли Седола. , Для получения дополнительной информации см. Deepmind.com/blog/alphago-zero-learning-scratch
Марк С.

1
@ thb Я думаю, что AlphaZero такой искусственный интеллект.
Гарри Уизли,

1
По состоянию на декабрь 2017 года AlphaZero обучил себя стилю игры в шахматы только по правилам игры arxiv.org/pdf/1712.01815.pdf и убедительно отказался от StockFish.
saille

Ответы:


14

Так так так! DeepMind опубликовали статью, в которой, по их словам, они запрограммировали и обучили компьютер нейронной сети, чтобы победить Stockfish.

По 1 минуте размышлений на ход их компьютер AlphaZero побил Stockfish на +25, = 25, -0 с белым и + 3, = 47,0- как черный.

Они «обучили» 3 отдельных компьютера играть в шахматы, сёги и го и убедительно победить своих силиконовых соперников.

Вот как статья описывает обучение и оценку -

Самостоятельные игры генерируются с использованием последних параметров для этой нейронной сети, без шага оценки и выбора лучшего игрока.

AlphaGo Zero настроил гиперпараметр своего поиска с помощью байесовской оптимизации. В AlphaZero мы повторно используем одни и те же гиперпараметры для всех игр без настройки игры. Единственным исключением является шум, который добавляется к предыдущей политике для обеспечения разведки; это масштабируется пропорционально типичному количеству законных ходов для этого типа игры.

Как и AlphaGo Zero, состояние доски кодируется пространственными плоскостями, основанными только на основных правилах для каждой игры. Действия закодированы либо в пространственных плоскостях, либо в плоском векторе, опять же, основываясь только на основных правилах для каждой игры (см. Методы).

Мы применили алгоритм AlphaZero к шахматам, сёги, а также к го. Если не указано иное, для всех трех игр использовались одинаковые настройки алгоритма, сетевая архитектура и гиперпараметры. Мы подготовили отдельный экземпляр AlphaZero для каждой игры. Обучение проходило 700 000 шагов (мини-пакетов размером 4096), начиная со случайно инициализированных параметров, с использованием 5000 TPU первого поколения для создания игр с самостоятельным воспроизведением и 64 TPU второго поколения для обучения нейронных сетей. Дальнейшие подробности процедуры обучения приведены в методах.

На рисунке 1 показана производительность AlphaZero во время обучения подкреплению в режиме самоигры в зависимости от шагов тренировки по шкале Эло (10). В шахматах AlphaZero опередил Stockfish всего за 4 часа (300 тыс. Шагов); в сёги AlphaZero превзошел Elmo менее чем за 2 часа (110 тыс. шагов); а в Go AlphaZero обошел AlphaGo Lee (29) через 8 часов (165 тыс. шагов).

Мы оценили полностью обученные экземпляры AlphaZero против Stockfish, Elmo и предыдущей версии AlphaGo Zero (тренировались 3 дня) в шахматах, сёги и го соответственно, сыграв 100 игровых матчей с контролем времени турнира по одной минуте за ход. AlphaZero и предыдущий AlphaGo Zero использовали одну машину с 4 TPU. Stockfish и Elmo играли на самом высоком уровне мастерства, используя 64 потока и размер хеша 1 ГБ. AlphaZero убедительно победил всех противников, проиграв 0 игр Stockfish и восемь игр Elmo (см. Дополнительный материал для нескольких примеров игр), а также победив предыдущую версию AlphaGo Zero (см. Таблицу 1).

Их компьютер использовал новую форму чипа, названную «TPU» ( Tensor Processing Unit ), разработанную Google для задач машинного обучения.

Они также утверждают, что их алгоритм поиска по дереву Монте-Карло лучше и более «похож на человека», чем традиционные алгоритмы поиска альфа-бета -

Мы также проанализировали относительную производительность поиска MCTS AlphaZero по сравнению с современными поисковыми системами альфа-бета, используемыми Stockfish и Elmo. AlphaZero ищет только 80 тысяч позиций в секунду в шахматах и ​​40 тысяч в сёги, по сравнению с 70 миллионами для Stockfish и 35 миллионами для Elmo. AlphaZero компенсирует меньшее количество оценок, используя свою глубокую нейронную сеть, чтобы гораздо более избирательно сосредоточиться на наиболее многообещающих вариациях - возможно, более «похожем на человека» подходе к поиску, как первоначально предлагал Шеннон. На рисунке 2 показана масштабируемость каждого игрока относительно времени мышления, измеренного по шкале Эло, относительно Stockfish или Elmo с временем мышления 40 мс. MCTS AlphaZero масштабируется более эффективно со временем обдумывания, чем Stockfish или Elmo,

Вот некоторые из игр -

Вяленая рыба - AlphaZero, 0-1
1. е4 е5 2. Nf3 Кс6 3. Bb5 Nf6 4. d3 Bc5 5. bxc6 dxc6 6. ОО Nd7 7. Nbd2 О. 8. QE1 f6 9. Nc4 Rf7 10. а4 Bf8 11. KH1 Nc5 12. а5 Ne6 13. Ncxe5 fxe5 14. Nxe5 RF6 15. Ng4 Rf7 16. Ne5 Re7 17. а6 с5 18. f4 Qe8 19. axb7 Bxb7 20. Qa5 Nd4 21. QC3 Re6 22. Be3 Rb6 23. Nc4 Rb4 24. b3 а5 25. Rxa5 Rxa5 26. Nxa5 Ba6 27. Bxd4 Rxd4 28. Nc4 Rd8 29. g3 h6 30. Qa5 Сс8 31. Qxc7 Bh3 32. Rg1 Rd7 33. QE5 Qxe5 34. Nxe5 Ra7 35. Nc4 g5 36. Rc1 Bg7 37. Ne5 Ra8 38. Nf3 Bb2 39. Rb1 Bc3 40. Ng1 Bd7 41. Ne2 Bd2 42. Rd1 Be3 43. Kg2 Bg4 44. Re1 Bd2 45. Rf1 Ra2 46. ​​h3 Bxe2 47. Rf2 Bxf4 48. Rxe2 Be5 49. Rf2 Kg7 50. g4 BD4 51. Re2 Kf6 52. е5 + Bxe5 53. KF3 Ra1 54. Rf2 Ке1 55. kg2 + Bf4 56. с3 Rc1 57. d4 Rxc3 58. dxc5 Rxc5 59. b4 Rc3 60. h4 Ke5 61 . hxg5 hxg5 62. Re2 + Kf6 63. Kf2 Be5 64. Ra2 Rc4 65. Ra6 + Ke7 66. Ra5 Ke6 67. Ra6 + Bd6 0-1

Игра

Вяленая рыба - AlphaZero, 0-1
1. е4 е5 2. Nf3 Кс6 3. Bb5 Nf6 4. d3 Bc5 5. bxc6 dxc6 6. ОО Nd7 7. с3 ОО 8. d4 Bd6 9. Bg5 Qe8 10. Ке1 f6 11. Bh4 Qf7 12. Nbd2 a5 13. Bg3 Re8 14. Qc2 Nf8 15. c4 c5 16. d5 b6 17. Nh4 g6 18. Nhf3 Bd7 19. Rad1 Re7 20. h3 Qg7 21. Qc3 Rae8 22. a3 h6 23. Bh4 Rf7 24. Bg3 Rfe7 25. Bh4 Rf7 26. BG3 а4 27. KH1 Rfe7 28. Bh4 Rf7 29. BG3 Rfe7 30. Bh4 g5 31. BG3 Ng6 32. НФ1 Rf7 33. Ne3 Ne7 34. Qd3 h5 35. h4 Nc8 36. Re2 g4 37. Nd2 Qh7 38. kg1 Bf8 39. Nb1 Nd6 40. Nc3 Bh6 41. Rf1 Ra8 42. Kh2 Kf8 43. kg1 Qg6 44. f4 gxf3 45. Rxf3 Bxe3 + 46. Rfxe3 Ke7 47. be1 Qh7 48. Rg3 Rg7 49. Rxg7 + Qxg7 50. Re3 Rg8 51. Rg3 Qh8 52. Nb1 Rxg3 53. Bxg3 Qh6 54. Nd2 Bg4 55. Kh2 Kd7 56. b3 axb3 57. Nxb3 Qg6 58. Nd2 Bd1 59. Nf3 BA4 60. Nd2 Ke7 61 . Bf2 Qg4 62. Qf3 Bd1 63. Qxg4 Bxg4 64. а4 Nb7 65. Nb1 Na5 66. Be3 Nxc4 67. Bc1 Bd7 68. Nc3 c6 69. KG1 cxd5 70. exd5 BF5 71. Kf2 Nd6 72. Be3 Ne4 + 73. Nxe4 Bxe4 74. а5 bxa5 75. bxc5 + Kd7 76. d6 Bf5 77. Ва3 Kc6 78. KE1 Kd5 79. KD2 Ke4 80. Bb2 KF4 81. Bc1 KG3 82. KE2 а4 83. KF1 Kxh4 84. Kf2 Kg4 85. Ba3 Bd7 86. Bc1 Kf5 87. Ke3 Ke6 0-1

Белый: AlphaZero Черный: вяленая рыба

AlphaZero - вяленая рыба, 1-0
1. Nf3 Nf6 2. c4 b6 25. Rd1 Ne6 26. Bxf8 Rxf8 3. d4 е6 4. g3 Ba6 5. Qc2 с5 6. d5 exd5 7. cxd5 Bb7 8. Bg2 Nxd5 9. OO Кс6 10. Rd1 Ве7 11. Qf5 Nf6 12. е4 g6 13. Qf4 О-О 14. е5 Nh5 15. Qg4 Re8 16. Nc3 Qb8 17. Nd5 Bf8 18. Bf4 Qc8 19. h3 Ne7 20. Ne3 Bc6 21. Rd6 Ng7 22. RF6 Qb7 23. Bh6 Nd5 24. Nxd5 Bxd5 27. Qh4 Bc6 28. Qh6 Rae8 29. Rd6 Bxf3 30. Bxf3 Qa6 31. h4 Qa5 32. Rd1 c4 33. Rd5 Qe1 + 34. Kg2 c3 35. bxc3 Qxc3 36. h5 Re7 37. Bd1 Qe1 38. Bb3 Rd8 39. Rf3 Qe4 40. Qd2 Qg4 41. Bd1 Qe4 42. h6 Nc7 43. Rd6 Ne6 44. Bb3 Qxe5 45. Rd5 Qh8 46. ​​Qb4 Nc5 47. Rxc5 bxc5 48. Qh4 Rde8 49. Rf6 Rf8 50. Qf4 a5 51. g4 d5 52. Bxd5 Rd7 53. Bc4 a4 54. g5 a3 55. Qf3 Rc7 56. Qxa3 Qxf6 57. gxf6 Rfc8 58. Qd3 Rf8 59. Qd6 Rfc8 60. a4 1- 1- 0

Просто прочитайте газету. Действительно удивительный. Конечно, это не значит, что вы не можете создать что-то еще более сильное с традиционными методами, объединенными с AlphaZero, но все же ...
BlindKungFuMaster

10

Хорошо, я должен признать, что был неправ. Хотя я бы сказал, что это было связано со знанием мнения эксперта, а не с общей тупостью: привести цитату из статьи : «Однако шахматные программы, использующие традиционную MCTS, были намного слабее, чем программы поиска альфа-бета (4, 24); - бета-программы, основанные на нейронных сетях, ранее не могли конкурировать с более быстрыми, сделанными вручную функциями оценки ».

Очевидно, шахматы стратегически достаточно глубоки, чтобы вы могли выработать стратегию для кого-то, кто сможет рассчитать вас. Для меня это большой сюрприз, потому что развитие шахматных движков шло в противоположном направлении. (Очевидно, все еще есть небольшая оговорка относительно того, действительно ли AlphaZero сильнее Stockfish: Stockfish разыгрывается всего с 1 ГБ для хэш-таблиц, а 64 ядра могут не совпадать с четырьмя TPU)

Это также действительно очень захватывающая вещь, потому что AlphaZero, скорее всего, имеет сильные отличия от традиционных двигателей.

Это также означает, что я многократно обновляю свое убеждение в важности AlphaGo как технологического прорыва. По сути, разбить сёги, го и шахматы с одной единственной установкой - это совершенно потрясающе, не говоря уже о десятках других игр, в которые AlphaZero может сыграть на сверхчеловеческом уровне.

Есть хорошее объяснение того, почему MCTS на самом деле является хорошей идеей даже для шахмат по сравнению с альфа-бета-поиском (из статьи): «AlphaZero оценивает позиции, используя приближение нелинейных функций на основе глубокой нейронной сети, а не линейной Функция аппроксимации, используемая в типичных шахматных программах. Это обеспечивает гораздо более мощное представление, но может также привести к ложным ошибкам аппроксимации. MCTS усредняет по этим ошибкам аппроксимации, которые, следовательно, имеют тенденцию подавляться при оценке большого поддерева. В отличие от альфа-бета-поиска вычисляет явный мини-максимум, который распространяет самые большие ошибки аппроксимации в корень поддерева ". (акцент мной)

Вот мой старый ответ, все еще содержащий некоторые действительные пункты, несмотря на то, что вывод заменяется реальностью.

Прежде всего, Alphago не является общей игровой системой. Это программа, предназначенная исключительно для игры в го и ничего больше. Однако он построен из определенных строительных блоков, которые имеют гораздо более широкое применение, таких как сверточные нейронные сети , которые использовались в распознавании изображений и которые имеют непосредственное применение в медицинской диагностике, и обучение с подкреплением, которое использовалось для освоения игр Atari, упомянутых в статья.

Кроме того, современные движки «учатся» за счет самостоятельной игры : «За одну ночь шесть компьютеров Lefler играют в более чем 14 000 игр каждый в течение восьмичасового периода.« Шесть машин на 14 000 игр - это много игр », - говорит он. с каждой сыгранной игрой база данных становится все глубже и богаче. Существует даже спортивный интерес к тому, чтобы смотреть, как компьютеры играют друг против друга. Результатом занятых жужжанием машин Лефлера является постоянно растущее мастерство Комодо ».

Чтобы прийти к основной части вашего вопроса:

Существует важное различие между шахматами и го, по крайней мере, с точки зрения программиста. Шахматы - скорее тактическая игра, а го - скорее стратегическая игра. Это означает, что в шахматном расчете глубина превосходит позиционную оценку. По сути, это ключевой момент, который отличает «старые» движки, такие как Fritz, Shredder, Junior, и новое поколение, такое как Fruit, Rybka, Houdini, Stockfish, Komodo. Потому что в конце каждой строки вам нужно оценить позицию и вы хотите рассчитать количество линий, а качество оценки не так важно, как глубина поиска, шахматные движки имеют функции быстрой и точной оценки.

С другой стороны, тактическая сложность слишком велика даже для компьютеров. Следовательно, оценка позиций и точных ходов является ключевой. Новое в игре Alphago - это способность оценивать, основанная на сверточных нейронных сетях .

Наконец, я хочу сказать, что функции оценки шахмат скудны и быстры, а у нейронных сетей миллионы, а иногда и миллиарды параметров. Поскольку «обучение» в этом контексте означает настройку параметров, возможен гораздо больший прогресс в программах самообучения.

Итак, да, вы могли бы использовать такую ​​установку, как Alphago, для создания шахматного движка, но это было бы не особенно хорошо. Запуск функции оценки занял бы так много времени, что вам пришлось бы использовать огромный кластер gpus для достижения необходимой глубины поиска (именно это делает Alphago). Вы можете создать очень хорошую функцию оценки , но компромисс скорости не стоит.


1
Я бы не согласился с вами по этому поводу, вы могли бы использовать такую ​​установку, как Alphago, для создания шахматного движка, но это было бы не особенно хорошо . Могу поспорить на то, что менее чем через год появится шахматный движок, который сильно зависит от NN (он, скорее всего, будет иметь поиск по дереву и monte carlo, но это не важно), который будет близок к современная вяленая рыба. И этот двигатель не будет происходить из суперкорпорации (потому что интерес к шахматам давно угас у исследователей ИИ), а скорее из сильного хоббиста.
Сальвадор Дали

Монте-Карло совершенно бесполезен в шахматах. И хотя NN не бесполезны, они слишком медленные.
BlindKungFuMaster

3
Почему именно MCTS бесполезен? Имеет смысл запустить старт с текущей позиции на доске, запустить 1000 игр с глубиной узла 5 и посмотреть, какой узел имеет больше шансов. Это очень похоже на то, что вы делаете, когда вы смотрите на статистику ходов в базе данных и видите, что после 14. Kg4 белые выигрывают 25%, но с 14. Rb2 они выигрывают с 45%. У вас есть какие-либо доказательства совершенно бесполезной фразы.
Сальвадор Дали

2
MCTS - это не случайность, а симуляция. Основные вводные книги о MC, показывающие вам пример случайности только для того, чтобы показать суть. Вы можете играть резкую позицию много раз с глубиной узла 6, которая является супер быстрой (и все еще довольно надежной), и позволит вам приблизительно оценить, какой ход лучше.
Сальвадор Дали

1
Мои заявления не смелые, они являются мейнстримом. Просто прочитайте несколько сайтов по шахматному программированию, вы найдете более или менее мои аргументы. MCTS известна уже десять лет, а в шахматах другие вещи работают лучше. С другой стороны, я не думаю, что ваши заявления основаны на чем-то большем, чем интуитивное чувство, так что это будет мой последний комментарий.
BlindKungFuMaster

5

Есть проект под названием spawkfish, который пытается сделать именно это. Это движок на основе нейронной сети, цель которого «изучить, как последние достижения в компьютерной игре могут быть применены в мире компьютерных шахмат».

Это молодой проект, и двигатель все еще довольно слабый. Играть в нее интересно, потому что ее позиционная игра лучше, чем ее тактика.


2
Вы не шутили с этим последним предложением. Я только что сыграл пару игр против нее, и каждая из них попала в довольно ровный эндшпиль, только чтобы увидеть, как spawkfish внезапно уронил материал (в одном случае просто повесил ладью из ниоткуда). Странный.
ETD

С тех пор, как вы ответили, похоже, появилась новая информация относительно го ИИ. Я обновил вопрос, чтобы дать ссылку на новости, если это вас интересует.
thb

Сайт spawkfish, похоже, исчез ...
hkBst

4

Может ли подобный ИИ выиграть в шахматы? Можно ли достичь чистого самообучения?

Короткий ответ - нет!"

Шахматы и Го радикально отличаются своей относительной простотой и относительной сложностью, которая зависит от их геометрии и от того, как вы выигрываете. Они объединяются, чтобы сделать программу, которая хороша в одном, бесполезна в другом.

В шахматах вы выигрываете матом противника, очки не учитываются. Конечно, разумный противник часто подает в отставку, прежде чем вы поставите мат, но принцип тот же. В го вы выигрываете, имея больше очков в конце игры. Если у меня есть король и королева, а у вас есть король, ладья и пешка, но вы построили крепость, то не имеет значения, что у меня есть 9 очков за королеву, а у вас есть только 6 очков за вашу ладью и пешку. Игра ничья.

Это существенно меняет сложность шахмат и го. В го вы можете просто сохранить счет, и вы будете знать, кто выигрывает. В шахматах единственный способ узнать, кто выигрывает, - это чистый расчет. В этом смысле шахматы намного сложнее, чем ход.

В то же время, из-за геометрии двух игр, в ходах на порядок больше возможностей, чем в шахматах. В этом смысле пойти гораздо сложнее, чем шахматы.

Шахматная программа работает путем расчета грубой силы всех возможных ходов на определенную глубину, которая определяет ее силу. Программа го не может работать так и играть что-то более продвинутое, чем начальный уровень го.

Основная цель го состоит в том, чтобы контролировать больше территории, чем ваш противник. В конце игры не имеет значения, если разница составляет 1 камень или 100 камней, оба выигрывают. Каждый раз, когда вы кладете камень, вы делаете две вещи. Вы увеличиваете свою территорию, потенциальную или фактическую, и уменьшаете территорию своего противника.

Иногда, когда это фактическое увеличение или уменьшение территории, легко рассчитать стоимость перемещения, но когда оно является потенциальным, его очень сложно оценить. Как слабый игрок, я понимаю «фактический» гораздо лучше, чем «потенциальный», и более сильный игрок превзойдет меня, построив гораздо большую потенциальную территорию в центре, в то время как я создаю меньшую фактическую территорию по краям и в углах. Более сильный игрок обретет способность судить по интуиции и ощущать себя от игры во многие игры и понимания того, как построить «потенциальную» территорию.

Ранее я говорил, что каждый раз, когда я кладу камень, он увеличивает мою территорию (фактическую или потенциальную) и уменьшает оппонента (фактически, если это глупый ход, он будет делать наоборот!). В любой данной позиции не все ходы одинаковы. Камень, помещенный в одну позицию, может стоить намного больше или намного меньше, чем камень, помещенный в другую.

Как правило, в игре будут небольшие «бои», когда игроки размещают свои камни рядом друг с другом, размечая свою территорию и ограничивая территорию своего противника. Между тем, есть возможность начать разбивать территорию в другой части доски или перейти в бой где-то еще, где у обоих игроков уже есть камни.

В этих ситуациях очень важно знать, когда остановить один бой, потому что потенциальные выгоды уменьшились, и либо переключиться на другой бой, либо, возможно, выйти на девственную территорию. Иногда это зависит от жесткого расчета, но часто он гораздо более туманный и не подлежит расчету. Как слабый игрок, именно здесь сильный плательщик будет сокрушать меня каждый раз.

В этих ситуациях компьютер использует вероятностные методы для получения ожидаемой оценки за конкретный ход. Иногда фактическое значение оказывается немного меньше, иногда немного больше, но в долгосрочной перспективе оно будет более или менее равномерным. Он будет продолжать выбирать ход с наивысшим ожидаемым значением, ожидая, что в течение долгого времени игры небольшие ошибки отменятся, и его стратегия победит.

Это не та стратегия, которая звучит знакомо шахматистам и не подходит для шахмат. Это то, что звучит знакомо любому, кто следит за тем, что происходит на фондовых рынках. Это звучит очень похоже на то, что называется «высокочастотной торговлей», когда компьютеры будут делать тысячи маленьких ставок или просто предлагали делать ставки каждую секунду, чтобы «никель за копейки» продать рынок и, возможно, даже незначительно переместить его в свою пользу в течение периодов в миллисекунды.

На финансовых рынках уже доминируют такие алгоритмические торги, что говорит о том, что программы такого рода уже одержали победу в гораздо более прибыльной сфере, чем настольная игра.


4
Торговля на высоких частотах не похожа на игру. Абсолютно разные алгоритмы афаик. Кроме того, в вашем ответе много интересного, но трудно понять главное, может быть, добавить TL; DR. ;-)
BlindKungFuMaster

@BlindKungFuMaster Основополагающий принцип, лежащий в основе HFT и AlphaGo, является вероятностным. Ожидаемый выигрыш от этого «хода» составляет х%. В долгосрочной перспективе накопление таких ходов / ставок выиграет игру для AlphaGo или принесет целое состояние HFT-трейдерам. Однако время от времени будет происходить «внезапный сбой» или «удивительный ход» Ли Седола, который превращает выигрыш / прибыль в убыток. Это никоим образом не лишает законной силы его программирование. Он не запрограммирован, чтобы каждый раз находить самое лучшее движение. Это немного похоже на псевдо-решения проблемы коммивояжера, которые пытаются получить в пределах 5% от лучших.
Брайан Тауэрс

С тех пор, как вы ответили, похоже, появилась новая информация относительно го ИИ. Я обновил вопрос, чтобы дать ссылку на новости, если это вас интересует.
THB

1
@thb, я считаю, что этот ответ сейчас несколько устарел, учитывая новый успех AlphaZero, как в arxiv.org/abs/1712.01815
Марк С.

@ Нет. Почему? Не судите других по вашим собственным поверхностным стандартам.
Брайан Тауэрс

4

(Любой, кто хочет глубокого технического обсуждения AlphaGo, может посмотреть мой пост )

Краткий ответ : нет

Длинный ответ :

Во-первых, нам нужно понять, почему Google не внедрил альфа-бета в AlphaGo. У Stockfish и Komodo (и всех шахматных движков) есть альфа-бета, почему бы не AlphaGo?

Причина : не существует простого и дешевого способа, который мог бы точно оценить положение Go в статическом режиме.

В шахматах мы всегда можем сосчитать материалы, очень эффективный способ статической оценки позиции. Хотя и не идеально, но очень быстро и очень хороший прокси для шахмат.

Поиск в пространстве состояний с помощью Монте-Карло является худшим методом, чем альфа-бета. Google мог бы внедрить альфа-бета, если бы мог, но не смог. Таким образом, они были вынуждены использовать что-то намного медленнее.

Шахматный двигатель не будет играть лучше с Монте-Карло.


Время пересмотреть, а может, просто еще нет?
Еваргало

3

Я не согласен с другими ответами. Я ученый-компьютерщик, который профессионально работает в области искусственного интеллекта, а также является кандидатом в мастера по шахматам и 3 дан в иго.

Я думаю, что в настоящее время неясно, могут ли методы Deep Mind быть применены к шахматам, но я думаю, что это возможно.

В настоящее время ведущие шахматные программы все больше полагаются на эвристику, и попытка использовать архитектуру AlphaGo для шахмат в некотором роде приведет к тому же образу мышления.

Одна из ключевых архитектурных особенностей AlphaGo, которую необходимо изменить, - это метод определения ключевых квадратов (или тепловых карт), который характерен для игр, подобных иго, и не применим напрямую к шахматам. Некоторый аналог этого метода должен быть разработан, чтобы сделать архитектуру AlphaGo актуальной для шахмат. Например, мы могли бы иметь понятие «ключевые фигуры», а не ключевые квадраты.

Я думаю, что аргумент о том, что архитектура AlphaGo не имеет отношения к шахматам, потому что шахматы более тактичны, не очень хорошая претензия, потому что в конечном итоге оба имеют поисковые деревья, которые достаточно похожи по форме, что AlphaGo определенно можно адаптировать к шахматам.


Я дал вам +1, потому что ваши претензии могут быть правильными, но мы не знаем наверняка, пока кто-нибудь не опубликует статью.
SmallChess

Э - э? Документ уже существует, как указал Брайан Тауэрс. Ответ - да.
термомагнитный конденсированный бозон

Похоже, я был прав, хе.
Сесил Де Вере

@CecilDeVere с несогласием с другими ответами, 2 из них указали на правильный ответ. И не утверждая, что это неясно в это время, в то время как совершенно ясно, что этот ответ - да (не возможно).
термомагнитный конденсированный бозон

3

Ответ - да! Google только что доказал это вчера, когда AlphaZero победил лучшую шахматную программу, используя только знания о правилах и самообучение, не используя человеческие знания шахмат. Принятый ответ неверен. Ссылка на статью здесь: ссылка


Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.