Вам нужна модель вероятности.
Идея системы ранжирования заключается в том, что одно число адекватно характеризует способности игрока. Мы можем назвать это число их «силой» (потому что «ранг» уже означает что-то конкретное в статистике). Мы бы предсказали, что игрок A побьет игрока B, когда сила (A) превысит силу (B). Но это утверждение слишком слабое, потому что (а) оно не является количественным и (б) оно не учитывает вероятность того, что более слабый игрок изредка побеждает более сильного игрока. Мы можем преодолеть обе проблемы, предполагая, что вероятность того, что A побьет B, зависит только от разницы в их сильных сторонах. Если это так, то мы можем повторно выразить все сильные стороны, необходимые для того, чтобы разница в сильных сторонах равнялась логическим шансам на победу.
В частности, эта модель
logit(Pr(A beats B))=λA−λB
logit(p)=log(p)−log(1−p)λA
У этой модели столько же параметров, сколько у игроков (но есть одна степень свободы, потому что она может идентифицировать только относительные силы, поэтому мы установим один из параметров на произвольное значение). Это своего рода обобщенная линейная модель (в семействе биномиальных, с логит-связью).
Параметры могут быть оценены по максимальному правдоподобию . Та же теория предоставляет средства для установления доверительных интервалов вокруг оценок параметров и проверки гипотез (например, является ли самый сильный игрок, согласно оценкам, значительно сильнее, чем предполагаемый самый слабый игрок).
В частности, вероятность набора игр является продуктом
∏all gamesexp(λwinner−λloser)1+exp(λwinner−λloser).
λ оценки других являются значениями, которые максимизируют эту вероятность. Таким образом, изменение любой из оценок снижает вероятность от ее максимума. Если оно уменьшается слишком сильно, это не согласуется с данными. Таким образом, мы можем найти доверительные интервалы для всех параметров: они являются пределами, в которых изменение оценок не чрезмерно снижает логарифмическую вероятность. Общие гипотезы могут быть аналогичным образом проверены: гипотеза ограничивает сильные стороны (например, предполагая, что они все равны), это ограничение ограничивает, насколько велика вероятность, и если этот ограниченный максимум слишком далеко от фактического максимума, гипотеза отвергнуто.
В этой конкретной задаче есть 18 игр и 7 бесплатных параметров. В общем, это слишком много параметров: гибкость настолько велика, что параметры можно довольно свободно варьировать без значительного изменения максимальной вероятности. Таким образом, применение механизма ML, вероятно, докажет очевидное, а именно то, что, вероятно, недостаточно данных, чтобы доверять оценкам прочности.