Сложность конечных состояний частичных информационных игр


12

Учитывая детерминированную игру с нулевой суммой частичной информации только с конечным числом состояний,
чьи возможные результаты [проиграть, сыграть, выиграть] со значениями [-1,0, + 1] соответственно,
какова сложность аппроксимации значения такого игра аддитивно в ?ϵ

В частности, я не могу придумать какой-либо алгоритм для этого.
Остальная часть этого поста целиком посвящена более подробному описанию
проблемы, поэтому, если вы уже можете понять, что
означает вопрос в верхней части этого поста, у вас нет оснований читать остальную часть этого поста.

Учитывая судейскую машину состояний , с указанным начальным состоянием s 0 , состоянием s a, чья пара очков равна [ - 1 , + 1 ] , состоянием s b, чья пара очков есть [ + 1 , - 1 ] , и состояниями вида{1,2,3,...,S}s0sa[1,+1]sb[+1,1]

где:[p1_info,p2_info,num_of_choices,player_to_move,next_state_table]

  • player_to_move{1,2}
  • является функцией от { 1 , 2 , 3 , . , , , Num_of_choices } { 1 , 2 , 3 , . , , , S }next_state_table{1,2,3,...,num_of_choices}{1,2,3,...,S}
  • p1_info,p2_info,num_of_choices1

Когда машина находится в состоянии этой формы:

  • отправляет Player_1 и отправляет p2_info Player_2,p1_infop2_info
  • num_of_choices{1,2,3,...,num_of_choices}
  • next_state_table

sasb

  • останавливается с парой очков этого состояния в качестве выходного

s0=1





Какова сложность следующей проблемы?
Учитывая такую ​​машину рефери и положительное целое число N, выведите рациональное число
, которое (аддитивно) находится в пределах 1 / N от значения натуральной игры для игрока 1.

Как упоминалось ранее в этом вопросе, я не могу придумать
какой-либо алгоритм для этого.


Знают ли игроки внутреннюю структуру? В чем преимущество наличия дополнительной информации, она дает больше возможных ходов?
domotorp

Да. Это дает им лучшее представление о текущем состоянии.

Извините, но я до сих пор не понимаю. Тогда они знают внутреннюю структуру, но они не знают, где они находятся в данный момент? Пожалуйста, сделайте описание понятным, я уверен, что я не единственный, кто не может понять проблему.
Домоторп

3
Является ли ваша модель такой же, как «стохастическая пошаговая игра с нулевой суммой и частичной информацией»?
Кристоффер Арнсфельт Хансен

1
@Kristoffer: Не очевидно (по крайней мере для меня), что моя модель позволяет кодировать иррациональные вероятности, хотя моя модель в остальном эквивалентна этой.

Ответы:


6

ПРИМЕЧАНИЕ: мой предполагаемый алгоритм был неверным; Я удалил это.

pp

Для более низкой оценки на сложностях, вопрос аппроксимации значения простой стохастической игры является не известен, что в P . Используя трюк рандомизации, который я привел выше, легко написать простую стохастическую игру в качестве рецензируемой игры со справочной таблицей полиномиального размера.


Эта идея рандомизации (по крайней мере, как вы ее описали) может дать только рациональные вероятности. Кроме того, определения, использованные в первых двух статьях, которые вы связали, слишком подразумевают, что их игры имеют конечное дерево игр, тогда как мне требуется только конечное пространство состояний (где «состояние» не включает историю игры).

Вы правы ... первая часть моего ответа неверна. Позвольте мне удалить это. Я вполне уверен, что аппроксимация значения простых стохастических игр не известна как P, даже если все броски монет имеют вероятность 1/2.
Питер Шор

1


ϵ0<ϵ

Входные данные: игра, как описано в моем вопросе,
должна вывести ДА, если: значение игры для Игрока 1 больше 1-ϵ
ϵ

остается RE- трудным, даже когда

player_to_move всегда равен 1 (т. е. требуется только 1 игрок),
а
s 0 ≠ s a и s a не находятся в диапазоне (next_state_table)
(т. е. игрок буквально не может проиграть),
а также
p1_info и p2_info и number_of_choices не зависят от состояния
(т. е. единственная обратная связь игрока заключается в том, выиграл он или нет)

,

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.