Обучение совместному укреплению

10

У меня уже есть работающая реализация для одного агента, работающего над проблемой динамического ценообразования с целью максимизации дохода. Однако проблема, с которой я работаю, связана с несколькими различными продуктами, которые заменяют друг друга, поэтому динамическое ценообразование их всех с независимыми учениками кажется неправильным, потому что цена одного влияет на вознаграждение другого. Цель состоит в том, чтобы динамически оценить их все, чтобы максимизировать сумму каждого отдельного дохода. $Q(\lambda)$

Я проводил некоторые исследования, чтобы попытаться найти что-то, что применяет обучение с подкреплением таким образом, но я обнаружил, что многие мультиагентные реализации больше ориентированы на конкурентные игры, чем на кооперативные, или они предполагают неполное знание других агентов (я хотел бы знание каждого агента в этом сценарии). Существуют ли хорошо изученные / документированные применения совместного обучения таким образом?

machine-learning reinforcement-learning

— user3704120
источник

1

Вы можете посмотреть эти бумаги. Первый довольно связан с вашей задачей.
http://icamt2016.org/papers/SS-LTMLBDA-06-05.pdf http://researcher.watson.ibm.com/researcher/files/us-kephart/icml00_qrt.pdf

— Prayalankar
источник

0

В целом, вы пытаетесь достичь эффективности Парето.

Чтобы сделать его совместным, вам нужно определить единую функцию вознаграждения, которая является общей для всех игроков (это может быть функция, которая каким-то образом объединяет отдельные функции вознаграждения).

Каким-то образом вам нужно взвесить вознаграждения, которые вы получаете от одного продукта, по отношению к другим.

— Хуан Лени
источник