Предсказание псевдослучайной последовательности


9

Отказ от ответственности: я биолог, извините за (возможно) основной вопрос, сформулированный в таких грубых выражениях.

Я не уверен, стоит ли мне задавать этот вопрос здесь или на DS / SC, но CS - самый большой из трех, так что здесь. (После того, как я написал, мне пришло в голову, что Cross-Validated может быть лучшим местом для этого, но увы).

Представьте, что есть агент, который принимает бинарные решения. И среда, которая за каждое из решений агента («испытания») либо вознаграждает агента, либо нет. Критерии вознаграждения за решения агента не просты. В целом критерии являются случайными, но они имеют ограничение, например, среда никогда не вознаграждает более 3 раз за одно и то же решение и никогда не заменяет вознаграждаемое решение более 4 раз подряд.

Тогда последовательность критериев может выглядеть примерно так

0 0 0 1 0 1 0 0 1 1 1 0 1 1 0 0 1 0 ...

но никогда

0 0 0 1 0 1 0 0 1 1 1 1 1 1 0 0 1 0 ...

потому что критерий вознаграждения не может повторяться более 3 раз.

В этих условиях довольно легко сформулировать стратегию, которую должен предпринять идеальный наблюдатель, чтобы максимизировать вознаграждение. Нечто подобное

  1. решать случайным образом
  2. если вы обнаружите, что критерии повторяются 3 раза - решите противоположность, чем последний критерий
  3. если вы обнаружите, что критерии чередуются 4 раза, решите по последнему критерию

Теперь сложная часть. Теперь критерий в каждом испытании зависит не только от истории предыдущих критериев, но и от истории решений агента, например, если агент чередуется более чем в 8 из последних 10 испытаний, вознаградите то же решение, что и агент, принятый в прошлый раз (как если агент отговаривает от чередования) и если агент повторил одно и то же решение более чем из 8 из последних 10 испытаний, то есть он предвзят, сделайте критерий, противоположный смещению. Приоритет истории критериев над историей решений определяется заранее, поэтому двусмысленности не бывает.

Последовательности решений (d) и критериев (c) теперь могут выглядеть следующим образом

d: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 1 1 0 1 0 1 0 ...
c: 1 0 1 0 0 0 1 1 0 0 1 1 1 1 1 1 1 1 0 1 0 0 1 1 0 0 0 1 0 ...
                       ↑ here criteria counteract bias in decisions  

Я не вижу простого способа придумать максимизирующую стратегию для агента. Но я уверен, что он должен быть, и какой-то умный алгоритм машинного обучения сможет его идентифицировать.

Мой вопрос не столько в том, как решить эту проблему (хотя я был бы рад, если бы вы предложили решение), а в том, как называются проблемы такого типа? Где я могу прочитать об этом? Есть ли абстрактное решение или только симуляция может помочь? В общем, как я, как биолог, могу подойти к этому типу проблем?


2
см., например, анализ авторегрессии временных рядов . было бы полезно, если бы вы были более подробно о входных данных. это из биологии? Есть стандартные методы для стандартных проблем. повторяющиеся ИНС (искусственные нейронные сети) также справляются с этим. также возможно
загляните в

2
Скрытые марковские модели могут быть полезным инструментом.
Рафаэль

1
Вы можете прочитать о Follow-The-Leader и других вариантах - onlineprediction.net/?n=Main.FollowTheLeader
MotiN

2
Я думаю, то, что вы имеете в виду, близко к тому, что люди в ОД называют Укрепляющим обучением .
Каве

1
ps: вы можете попробовать опубликовать в Cross Validated, если вы не получили ответ здесь через некоторое время.
Каве

Ответы:


1

Вы можете подойти к этой проблеме, используя Усиление обучения.

Классическая книга для этого - Саттон и Барто:

Черновик второго издания доступен бесплатно: https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html.

Чтобы сделать вашу проблему марковской, определите каждое государство как вектор последних десяти решений. Ваши действия будут 1 или 0.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.