Вот быстрый грязный анализ, основанный на базе данных PGN "Million Base". Я сделал это немного спешно, поэтому вполне может быть ошибки в моем программировании или логике. Пожалуйста, не используйте это для чего-то слишком серьезного. Обновление - Примечание. На самом деле, я только что заметил, что допустил ошибку с набором данных и ограничил его первым 1 миллионом записей. Я опубликую обновление, когда у меня будет свободное время, чтобы снова запустить его на полную версию. Между тем, эти цифры должны быть интересными, тем не менее.
Получение данных:
Я получил файл Million Base 1.74 по этому URL , поскольку сайт top-5000.nl кажется 404, когда вы на самом деле пытаетесь его скачать. Файл содержит чуть более 1 миллиона игр в формате экспорта PGN (то есть легко разбирается).
К сожалению, в более чем 60% игр отсутствовала какая-либо рейтинговая информация (я искал теги «WhiteELO» и «BlackELO»), а еще меньше - рейтинги обоих игроков. В конце я решил получить как можно больший размер выборки и подсчитать ходы игрока, если его или ее рейтинг известен, независимо от рейтинга другого игрока.
Процесс:
Игры анализировались одна за другой, и если рейтинг игрока был известен, все его ходы для этой игры были бы добавлены в совокупность для группы рейтинга игрока. Я решил разделить рейтинги на группы по 100, например, с 1600 по 1699 год - это одна группа.
Поскольку фактический текст перемещения в PGN - это SAN, я использовал следующий ярлык для подсчета ходов: ходы рыцаря (N), слона (B), ладьи (R), королевы (Q) и короля (K) начинаются с буквы их фигуры , Рокировка (ОО и ООО) учитывалась отдельно, как особый случай. Все оставшиеся ходы были засчитаны как ходы пешки без дальнейшего изучения.
Очистка данных не была выполнена. Не было попытки идентифицировать выбросы и удалить их (например, очень короткие и длинные игры и т. Д.). Я сохранил, но не включил в следующий анализ результаты оценок ниже 1600 - размер выборки для этих игр был значительно ниже 100, что привело к значительным различиям в результатах. Необработанные данные приведены в конце этого поста.
Некоторые недостатки информации: на данный момент я собрал только очень простые итоги и дал средние значения. Я почти уверен, что в общем случае данные НЕ распределяются нормально, но я не смогу сказать больше, не выводя необработанные данные и не выполняя их через статистическую программу. Я могу сделать это, если есть интерес. На данный момент это означает отсутствие доверительных интервалов или другой информации о распределении чисел, которые представляют эти средние значения. Я также не проверял, сколько лет охватывает набор данных - если он представляет много лет, может быть полезно попытаться скорректировать общую силу поля.
Некоторые тенденции:
Несколько слов о рейтингах игроков - наиболее часто встречающиеся рейтинговые группы были в порядке: от 2400 до 2500, от 2500 до 2600 и от 2300 до 2400. Эти рейтинговые группы обеспечивали 72% подсчитанных игр.
Глядя на реальные результаты, средняя продолжительность игры была неожиданностью:
Во всех рейтинговых группах до 2000 года игры были значительно короче, чем в более высоких группах. Это вполне может быть объяснено тем, что они играли более сильных противников (см. Средний рейтинг выше) и что они потерпели поражение за меньшее количество ходов. Это, кажется, идет вразрез с немного более короткими играми, в которые играют лучшие рейтинговые группы, хотя это может способствовать уменьшению размера выборки.
Относительно большие различия в средней продолжительности игры означают, что предоставление частоты перемещения определенной фигуры, а не общего числа перемещений фигуры, возможно, является более справедливым сравнением. Расчет частот приводит к следующему графику:
Следующие тенденции, кажется, присутствуют:
- Частота ходов коня, похоже, немного снижается в зависимости от рейтинга.
- Епископ двигает тренд вниз примерно до 2000 года, затем медленно тренд вверх.
- Ладья резко перемещается вверх примерно в одной и той же точке и остается более частой, чем епископ, в игре высокого уровня.
- Похоже, что пешечные движения имеют тенденцию к небольшому снижению с повышением рейтинга Большим исключением является высшая категория, от 2800 до 2900. Это подводит нас к следующему пункту:
- Высшая рейтинговая категория обеспечивает выбросы или контр-тренды в целом ряде измерений. Это может быть объяснено различными способами: 1) размер выборки довольно мал: 363, не крошечный, а 10% от следующего наименьшего размера выборки. 2) Поскольку они находятся на верхних строчках рейтинговых групп, они никогда не играют «более сильных» противников, чем они сами. 3) Или просто на этом уровне, их стиль игры превысил уровни ниже их. Мое предположение было бы комбинацией 1) и 2).
- Различия в ходах королевы и ходах рокировки очень малы без каких-либо реальных трендов, кроме крошечного тренда вниз в обоих случаях.
- Частота ходов короля имеет некоторые самые большие различия. Четкой тенденции не видно, и кажется, что она меняет направление 3 или 4 раза.
Дальнейший анализ
Некоторые идеи для будущего анализа:
- Основные статистические исправления: я считаю, что очень короткие и длинные игры, вероятно, следует исключить. Кроме того, распределение фактического количества может быть очень показательным.
- Разделение анализа дальше может также дать интересные результаты. Например, мне было бы интересно узнать, как совпадают частоты для черного и белого (они одинаковые или разные? Почему?).
- Также может быть интересна категоризация по разнице в рейтингах. Играют ли игроки с более сильным оппонентом (скажем, 200 над ними) с разными частотами движения? К сожалению, для этого нужно знать ELO обоих игроков, что редко встречается в этом наборе данных.
- Тенденция к коротким и длинным замкам также может варьироваться в зависимости от рейтинга.
- Статистика продвижения фигуры, некоторый легкий структурный анализ (например, количество удвоенных пешек, пассивов, булавок, вилок, показанных по рейтингу) может быть проницательным.
- «Тепловые карты» размещения фигур на фактической доске, показанные рейтингом, также могут быть довольно интересными.
Агрегировать данные в формате CSV
Для тех, кто хочет играть с данными, не стесняйтесь.
Рейтинговый диапазон, размер выборки, средняя длина игры, средние ходы пешки, средние ходы коня, средние ходы слона, средние ходы ладьи, средние ходы ферзя, средние ходы короля, средний бросок
1100 to 1200,4,28.500,7.000,4.000,4.000,6.500,3.750,2.750,0.500
1300 to 1400,16,34.125,9.250,6.813,5.000,4.438,4.563,3.188,0.875
1400 to 1500,35,33.800,9.400,6.114,5.514,4.514,4.057,3.400,0.800
1500 to 1600,61,33.607,8.705,7.459,4.984,4.443,4.033,3.148,0.836
1600 to 1700,163,33.153,9.227,6.485,5.110,4.699,3.969,2.816,0.847
1700 to 1800,301,31.811,8.894,6.223,5.402,4.468,3.734,2.296,0.794
1800 to 1900,307,34.251,9.537,6.642,5.577,4.889,4.039,2.759,0.808
1900 to 2000,450,35.551,9.731,6.778,5.451,5.444,4.442,2.871,0.833
2000 to 2100,3958,38.731,10.302,7.095,6.072,6.242,4.668,3.481,0.871
2100 to 2200,11217,38.905,10.501,7.116,6.086,6.245,4.629,3.445,0.884
2200 to 2300,50848,39.446,10.595,7.167,6.174,6.420,4.717,3.484,0.889
2300 to 2400,79322,39.248,10.551,7.141,6.141,6.469,4.653,3.402,0.891
2400 to 2500,111867,38.394,10.398,7.013,6.086,6.294,4.542,3.168,0.893
2500 to 2600,92225,38.308,10.396,6.972,6.082,6.344,4.515,3.104,0.896
2600 to 2700,33193,39.340,10.565,7.061,6.295,6.579,4.630,3.318,0.891
2700 to 2800,4805,40.938,10.945,7.221,6.725,6.930,4.726,3.494,0.895
2800 to 2900,363,38.865,11.311,6.879,6.284,6.160,4.391,2.983,0.857