Вопросы с тегом «reinforcement-learning»

7
Как обучить искусственную нейронную сеть игре в Diablo 2 с помощью визуального ввода?
В настоящее время я пытаюсь получить ИНС для игры в видеоигру, и я надеялся получить некоторую помощь от замечательного сообщества здесь. Я остановился на Diablo 2. Таким образом, игра ведется в реальном времени с изометрической точки зрения, когда игрок управляет одним аватаром, на котором сфокусирована камера. Чтобы сделать вещи конкретными, …

4
В чем разница между итерацией значения и итерацией политики?
В обучении с подкреплением, в чем разница между итерации политики и значение итерации ? Насколько я понимаю, при итерации значений вы используете уравнение Беллмана для поиска оптимальной политики, тогда как при итерации политики вы случайным образом выбираете политику π и находите вознаграждение за эту политику. Я сомневаюсь, что если вы …

1
Понимание получения градиентной политики
Я пытаюсь воссоздать очень простой пример Policy Gradient из исходного ресурса блога Andrej Karpathy . В этой статье вы найдете пример с CartPole и Policy Gradient со списком веса и активацией Softmax. Вот мой воссозданный и очень простой пример градиента политики CartPole, который отлично работает . import gym import numpy …

1
TypeError: len плохо определено для символических тензоров. (Activation_3 / Identity: 0) Пожалуйста, вызовите `x.shape`, а не` len (x) `для получения информации о форме
Я пытаюсь реализовать модель DQL в одной игре openAI. Но это дает мне следующую ошибку. TypeError: len плохо определено для символических тензоров. (активация_3 / идентификатор: 0) Пожалуйста, звоните, x.shapeа не len(x) для получения информации о форме. Создание спортивной среды: ENV_NAME = 'CartPole-v0' env = gym.make(ENV_NAME) np.random.seed(123) env.seed(123) nb_actions = env.action_space.n …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.