Вопросы с тегом «reinforcement-learning»

Область машинного обучения, связанная с тем, как программные агенты должны действовать в среде, чтобы максимизировать некоторое понятие кумулятивного вознаграждения.

5
Что такое функция Q и что такое функция V в обучении подкреплению?
Мне кажется, что функция может быть легко выражена функцией и, таким образом, функция кажется мне излишней. Тем не менее, я новичок в изучении подкрепления, так что, я думаю, я ошибсяVVVQQQVVV Определения Q- и V-обучение находятся в контексте Марковских процессов принятия решений . MDP представляет собой 5-кортеж с(S,A,P,R,γ)(S,A,P,R,γ)(S, A, P, R, …

1
Почему xgboost намного быстрее, чем sklearn GradientBoostingClassifier?
Я пытаюсь обучить модели повышения градиента более чем на 50 тыс. Примеров с 100 числовыми функциями. XGBClassifierобрабатывает 500 деревьев в течение 43 секунд на моей машине, в то время как GradientBoostingClassifierобрабатывает только 10 деревьев (!) за 1 минуту и ​​2 секунды :( Я не стал пытаться вырастить 500 деревьев, так …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

5
Разница между политикой сети AlphaGo и сетью ценностей
Я читал обзор высокого уровня об AlphaGo от Google ( http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html ), и я столкнулся с условиями "политика" сеть "и" сеть ценностей ". На высоком уровне я понимаю, что сеть политик используется для предложения шагов, а сеть ценностей используется для «уменьшения глубины дерева поиска [и оценки] победителя в каждой позиции …

2
Что именно является начальной загрузкой в ​​обучении подкреплению?
По-видимому, в обучении с подкреплением метод временной разности (TD) является методом начальной загрузки. С другой стороны, методы Монте-Карло не являются методами начальной загрузки. Что именно является начальной загрузкой в ​​RL? Что такое метод начальной загрузки в RL?

1
Что такое «повтор опыта» и каковы его преимущества?
Я читал статью Google DeepMind Atari и пытаюсь понять концепцию «воспроизведения опыта». Воспроизведение опыта встречается во многих других документах для подкрепления (в частности, в статье AlphaGo), поэтому я хочу понять, как это работает. Ниже приведены некоторые выдержки. Во-первых, мы использовали биологически вдохновленный механизм, называемый повторением опыта, который рандомизирует данные, тем …

4
AlphaGo (и другие игровые программы, использующие обучение с подкреплением) без базы данных людей
Я не специалист в данной области, и мой вопрос, вероятно, очень наивный. Это вытекает из эссе, чтобы понять возможности и ограничения обучения подкрепления, как используется в программе AlphaGo. Программа AlphaGo была построена с использованием, среди прочего (исследование деревьев в Монте-Карло и т. Д.) Нейронных сетей, которые обучаются на основе огромной …

1
Обучение под присмотром против обучения с подкреплением для простого самостоятельного вождения автомобиля
Я строю автомобиль с дистанционным управлением для удовольствия. Я использую Raspberry Pi в качестве бортового компьютера; и я использую различные плагины, такие как камера Raspberry Pi и датчики расстояния, для обратной связи по окружению автомобиля. Я использую OpenCV, чтобы превратить видеокадры в тензоры, и я использую TensorFlow от Google, чтобы …

3
Существуют ли хорошие готовые языковые модели для Python?
Я создаю прототип приложения и мне нужна языковая модель для вычисления недоумения в некоторых сгенерированных предложениях. Есть ли в Python обученная языковая модель, которую я могу легко использовать? Что-то простое, как model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
Обучение совместному укреплению
У меня уже есть работающая реализация для одного агента, работающего над проблемой динамического ценообразования с целью максимизации дохода. Однако проблема, с которой я работаю, связана с несколькими различными продуктами, которые заменяют друг друга, поэтому динамическое ценообразование их всех с независимыми учениками кажется неправильным, потому что цена одного влияет на вознаграждение …

2
реализация временной разницы в шахматах
Я занимаюсь разработкой шахматной программы, в которой используется алгоритм обрезки альфа-бета и функция оценки, которая оценивает позиции с использованием следующих функций, а именно: материал, безопасность короля, мобильность, структура пешки и захваченные фигуры и т. Д. ..... Моя функция оценки полученный из е( р ) = ш1⋅ материал + ш2⋅ kingsafety …


4
Книги по усиленному обучению
Я уже довольно давно пытаюсь понять обучение с подкреплением, но каким-то образом я не могу представить, как написать программу для обучения подкреплению для решения проблемы мира сетки. Можете ли вы предложить мне несколько учебников, которые помогли бы мне составить четкую концепцию обучения в области подкрепления?
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.