Любой, кто следит за бейсболом, скорее всего, слышал о непонятном выступлении в стиле MVP в Торонто Жозе Баутиста. За четыре года до этого он совершил около 15 хоумранов за сезон. В прошлом году он ударил 54, число превзошло только 12 игроков в истории бейсбола.
В 2010 году ему заплатили 2,4 миллиона, и он просит команду за 10,5 миллиона на 2011 год. Они предлагают 7,6 миллиона. Если он сможет повторить это в 2011 году, он легко будет стоить любую сумму. Но каковы шансы его повторения? Как сильно мы можем ожидать, что он регрессирует до среднего? Какую часть его выступления мы можем ожидать благодаря случайности? Что мы можем ожидать от его скорректированных итогов регрессии к среднему значению за 2010 год? Как мне это решить?
Я играл с базой данных Lahman Baseball Database и выдал запрос, который возвращает итоги хоумранов для всех игроков в предыдущих пяти сезонах, у которых было не менее 50 игроков в сезоне.
Таблица выглядит следующим образом (обратите внимание на Хосе Баутиста в строке 10)
first last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1 Bobby Abreu 15 16 20 15 20
2 Garret Anderson 17 16 15 13 2
3 Bronson Arroyo 2 1 1 0 1
4 Garrett Atkins 29 25 21 9 1
5 Brad Ausmus 2 3 3 1 0
6 Jeff Baker 5 4 12 4 4
7 Rod Barajas 11 4 11 19 17
8 Josh Bard 9 5 1 6 3
9 Jason Bartlett 2 5 1 14 4
10 Jose Bautista 16 15 15 13 54
и полный результат (232 строки) доступен здесь .
Я действительно не знаю, с чего начать. Может кто-то указать мне верное направление? Некоторые соответствующие теории и R команды были бы особенно полезны.
Спасибо
Томми
Примечание: пример немного надуманный. Хоум-раны определенно не лучший показатель ценности игрока, а итоги хоум-ранов не учитывают разное количество шансов в сезоне, что у бэттера есть шанс попасть в хоум-раны (появление на пластине). Также это не отражает того, что некоторые игроки играют на более благоприятных стадионах, и что средний пробег в лиге меняется с каждым годом. И т. Д. И т. Д. Если я могу понять теорию, лежащую в основе учета регрессии к среднему, я могу использовать ее для более подходящих показателей, чем для HR.