Почему рейтинговая система Elo использует неправильное правило обновления?


10

Система рейтинга Эло использует алгоритм минимизации градиентного спуска функции кросс-энтропийной потери между ожидаемой и наблюдаемой вероятностью исхода в парных сравнениях. Мы можем написать общие функции потерь как

E=n,ipiLog(qi)

где сумма производится по всем исходам и всем противникам . - наблюдаемая частота события а - ожидаемая частота.п р я я д яinpiiqi

В случае только двух возможных результатов (победа или поражение) и одного противника у нас есть

E=pLog(q)(1p)Log(1q)

Если - рейтинг игрока а - рейтинг игрока мы можем построить ожидаемую вероятность как тогда правило обновления градиентного спуска скажет использовать i π j j q i = e π iπiiπjj

qi=eπieπi+eπj
qj=eπjeπi+eπj

πi=πiη(qipi)

πj=πjη(qjpj)

где и p_i - ожидаемая и наблюдаемая вероятность выигрыша игрока i против игрока j . Это обновление правил.qi i jpiijtwo outcomes

При наличии ничьих мы можем обобщить вышеприведенную модель, включая и третий результат с вероятностью

дя

q(d)=νeπi+πj2eπi+eπj+νeπi+πj2
дJ
qi(w)=eπieπi+eπj+νeπi+πj2
qj(w)=eπjeπi+eπj+νeπi+πj2

И мы можем построить функцию потери как

E=p(w)Log(q(w))(1p(w)p(d))Log(q(l))p(d)Log(q(d))

где - соответственно наблюдаемая вероятность , и и ожидаемая вероятность , и . В последнем случае правило обновления будетq ( w ) , q ( l ) , q ( d )p(w),p(l),p(d)winloosedrawq(w),q(l),q(d)winloosedraw

πi=πiη(qi(w)+qi(d)2pi(w)pi(d)2)

πj=πjη(qj(w)+qj(d)2pj(w)pj(d)2)

где и - ожидаемая вероятность того, что игрок выиграет и сыграет вничью с игроком . И где и - наблюдаемая вероятность того, что игрок выиграет и сыграет вничью с игроком . Это правило обновления.q j ( d ) i j p iqj(w)qj(d)ijpi(w)pi(d)ijthree outcome

Вопрос в том, почему рейтинговая система Elo использует two outcomesправила обновления даже при наличии розыгрышей?

Ответы:


3

Вероятность рисования, в отличие от решающего результата, в системе Эло не указана . Вместо этого рассматривается ничья - как в ожидаемой производительности, так и в исходе матча - половина выигрыша и половина проигрыша.

Пример со страницы Эло в Википедии : «Ожидаемый счет игрока - это вероятность выигрыша плюс половина вероятности выигрыша. Таким образом, ожидаемый счет 0,75 может представлять 75% -ный шанс на выигрыш, 25% -ый шанс проигрыша и 0% -ый шанс». рисования. С другой стороны, он может представлять 50% вероятности выигрыша, 0% вероятности проигрыша и 50% вероятности выигрыша ».

Вероятность рисования, как я уже сказал, не указана , и это приводит к простому two outcomeправилу обновления, , в котором , поэтому после одного матча (победа) или (ничья, как половина выигрыша) или (проигрыш).S A = 1 ( n w + 0,5 n d ) + 0 ( 0,5 n d + n l ) S A = 1 S A = 0,5 S A = 0RA=RA+K(SAEA)SA=1(nw+0.5nd)+0(0.5nd+nl)SA=1SA=0.5SA=0

Как и Elo, система Glicko не моделирует ничьи, но обновляет ее как среднее значение выигрыша и проигрыша (на игрока). Вместо этого в системе ранжирования TrueSkill «ничьи» моделируются исходя из предположения, что разница в производительности в конкретной игре мала. Следовательно, вероятность ничьей зависит только от разницы игровой силы двух игроков. Однако эмпирические результаты в игре шахматного шоу показывает, что ничья между профессиональными игроками более вероятна, чем у начинающих. Следовательно, вероятность рисования также зависит от уровня квалификации ».

Этот подход требует различного специфического моделирования для каждой игры (и TrueSkill применяется к нескольким играм Microsoft Xbox), поэтому он подходит для Elo и Glicko (предназначенных только для шахмат), и не для ранда , нашей многоцелевой системы ранжирования.


«Ожидаемый счет игрока - это вероятность выигрыша плюс половина вероятности выигрыша». это именно то, что я нашел в формуле выше. В любом случае в формуле обновления Elo половина вероятности ничьей не указана, как вы указываете. Остается вопрос, почему в системе ранжирования Elo нас не волнуют ничьи?
Эммануил

1
Вы всегда можете выразить ожидаемый счет как шанс на выигрыш и шанс на проигрыш (и нулевой шанс на ничью - см. Первый пример из Википедии). В этом случае «ожидаемый счет игрока - это его вероятность выигрыша» (и что-то еще, потому что половина вероятности выигрыша равна нулю). После одного матча результатом является победа или проигрыш или половина выигрыша. Даже если у вас есть игра, в которой разрешены ничьи, вы можете обновить счет Эло, используя только комбинацию выигрыша и проигрыша, как будто ничья не имеет шансов.
Томазо Нери
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.