Наука о данных reinforcement-learning

5

Что такое функция Q и что такое функция V в обучении подкреплению?

Мне кажется, что функция может быть легко выражена функцией и, таким образом, функция кажется мне излишней. Тем не менее, я новичок в изучении подкрепления, так что, я думаю, я ошибсяVVVQQQVVV Определения Q- и V-обучение находятся в контексте Марковских процессов принятия решений . MDP представляет собой 5-кортеж с(S,A,P,R,γ)(S,A,P,R,γ)(S, A, P, R, …

30 machine-learning reinforcement-learning

1

Почему xgboost намного быстрее, чем sklearn GradientBoostingClassifier?

Я пытаюсь обучить модели повышения градиента более чем на 50 тыс. Примеров с 100 числовыми функциями. XGBClassifierобрабатывает 500 деревьев в течение 43 секунд на моей машине, в то время как GradientBoostingClassifierобрабатывает только 10 деревьев (!) за 1 минуту и 2 секунды :( Я не стал пытаться вырастить 500 деревьев, так …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

5

Разница между политикой сети AlphaGo и сетью ценностей

Я читал обзор высокого уровня об AlphaGo от Google ( http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html ), и я столкнулся с условиями "политика" сеть "и" сеть ценностей ". На высоком уровне я понимаю, что сеть политик используется для предложения шагов, а сеть ценностей используется для «уменьшения глубины дерева поиска [и оценки] победителя в каждой позиции …

25 machine-learning reinforcement-learning

2

Что именно является начальной загрузкой в обучении подкреплению?

По-видимому, в обучении с подкреплением метод временной разности (TD) является методом начальной загрузки. С другой стороны, методы Монте-Карло не являются методами начальной загрузки. Что именно является начальной загрузкой в RL? Что такое метод начальной загрузки в RL?

23 reinforcement-learning

1

Что такое «повтор опыта» и каковы его преимущества?

Я читал статью Google DeepMind Atari и пытаюсь понять концепцию «воспроизведения опыта». Воспроизведение опыта встречается во многих других документах для подкрепления (в частности, в статье AlphaGo), поэтому я хочу понять, как это работает. Ниже приведены некоторые выдержки. Во-первых, мы использовали биологически вдохновленный механизм, называемый повторением опыта, который рандомизирует данные, тем …

19 reinforcement-learning q-learning

4

AlphaGo (и другие игровые программы, использующие обучение с подкреплением) без базы данных людей

Я не специалист в данной области, и мой вопрос, вероятно, очень наивный. Это вытекает из эссе, чтобы понять возможности и ограничения обучения подкрепления, как используется в программе AlphaGo. Программа AlphaGo была построена с использованием, среди прочего (исследование деревьев в Монте-Карло и т. Д.) Нейронных сетей, которые обучаются на основе огромной …

13 reinforcement-learning

1

Обучение под присмотром против обучения с подкреплением для простого самостоятельного вождения автомобиля

Я строю автомобиль с дистанционным управлением для удовольствия. Я использую Raspberry Pi в качестве бортового компьютера; и я использую различные плагины, такие как камера Raspberry Pi и датчики расстояния, для обратной связи по окружению автомобиля. Я использую OpenCV, чтобы превратить видеокадры в тензоры, и я использую TensorFlow от Google, чтобы …

12 reinforcement-learning supervised-learning

3

Существуют ли хорошие готовые языковые модели для Python?

Я создаю прототип приложения и мне нужна языковая модель для вычисления недоумения в некоторых сгенерированных предложениях. Есть ли в Python обученная языковая модель, которую я могу легко использовать? Что-то простое, как model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

2

Обучение совместному укреплению

У меня уже есть работающая реализация для одного агента, работающего над проблемой динамического ценообразования с целью максимизации дохода. Однако проблема, с которой я работаю, связана с несколькими различными продуктами, которые заменяют друг друга, поэтому динамическое ценообразование их всех с независимыми учениками кажется неправильным, потому что цена одного влияет на вознаграждение …

10 machine-learning reinforcement-learning

2

реализация временной разницы в шахматах

Я занимаюсь разработкой шахматной программы, в которой используется алгоритм обрезки альфа-бета и функция оценки, которая оценивает позиции с использованием следующих функций, а именно: материал, безопасность короля, мобильность, структура пешки и захваченные фигуры и т. Д. ..... Моя функция оценки полученный из е( р ) = ш1⋅ материал + ш2⋅ kingsafety …

10 machine-learning algorithms reinforcement-learning

1

Может ли обучение с подкреплением применяться для прогнозирования временных рядов?

9 time-series reinforcement-learning forecasting

4

Книги по усиленному обучению

Я уже довольно давно пытаюсь понять обучение с подкреплением, но каким-то образом я не могу представить, как написать программу для обучения подкреплению для решения проблемы мира сетки. Можете ли вы предложить мне несколько учебников, которые помогли бы мне составить четкую концепцию обучения в области подкрепления?

9 machine-learning books reinforcement-learning

Вопросы с тегом «reinforcement-learning»