Я не специалист в данной области, и мой вопрос, вероятно, очень наивный. Это вытекает из эссе, чтобы понять возможности и ограничения обучения подкрепления, как используется в программе AlphaGo.
Программа AlphaGo была построена с использованием, среди прочего (исследование деревьев в Монте-Карло и т. Д.) Нейронных сетей, которые обучаются на основе огромной базы данных го-игр, в которые играют люди, и которые затем усиливаются, позволяя играть в версии игры. программа против себя много раз.
Теперь мне интересно, что произойдет, если мы попытаемся создать такую программу без человеческой базы данных, то есть, начав с базовой программы Go, просто зная правила и какой-то метод исследования деревьев, и позволяя играть против себя, чтобы улучшить свою нейронную сеть. Сможем ли мы после многих игр против себя найти программу, способную конкурировать или побеждать лучших игроков? И если да, сколько игр (в порядке величины) потребуется для этого? Или наоборот, такая программа приблизится к гораздо более слабому игроку?
Я предполагаю, что эксперимент не был проведен, так как AlphaGo - это совсем недавно. Но ответ все же может быть очевиден для специалиста. В противном случае любое обоснованное предположение заинтересует меня.
Можно также задать тот же вопрос для «более простых» игр. Если мы будем использовать примерно ту же технику обучения с подкреплением, которую использовали для AlphaGo, но без использования человеческой базы данных для шахматной программы, получим ли мы программу, способную победить лучшего человека? И если да, то как быстро? Это было опробовано? Или если не для шахмат, как насчет шашки, или даже более простые игры?
Большое спасибо.