У меня уже есть работающая реализация для одного агента, работающего над проблемой динамического ценообразования с целью максимизации дохода. Однако проблема, с которой я работаю, связана с несколькими различными продуктами, которые заменяют друг друга, поэтому динамическое ценообразование их всех с независимыми учениками кажется неправильным, потому что цена одного влияет на вознаграждение другого. Цель состоит в том, чтобы динамически оценить их все, чтобы максимизировать сумму каждого отдельного дохода.
Я проводил некоторые исследования, чтобы попытаться найти что-то, что применяет обучение с подкреплением таким образом, но я обнаружил, что многие мультиагентные реализации больше ориентированы на конкурентные игры, чем на кооперативные, или они предполагают неполное знание других агентов (я хотел бы знание каждого агента в этом сценарии). Существуют ли хорошо изученные / документированные применения совместного обучения таким образом?