Измерение регрессии до среднего значения при попадании в дома

11

Любой, кто следит за бейсболом, скорее всего, слышал о непонятном выступлении в стиле MVP в Торонто Жозе Баутиста. За четыре года до этого он совершил около 15 хоумранов за сезон. В прошлом году он ударил 54, число превзошло только 12 игроков в истории бейсбола.

В 2010 году ему заплатили 2,4 миллиона, и он просит команду за 10,5 миллиона на 2011 год. Они предлагают 7,6 миллиона. Если он сможет повторить это в 2011 году, он легко будет стоить любую сумму. Но каковы шансы его повторения? Как сильно мы можем ожидать, что он регрессирует до среднего? Какую часть его выступления мы можем ожидать благодаря случайности? Что мы можем ожидать от его скорректированных итогов регрессии к среднему значению за 2010 год? Как мне это решить?

Я играл с базой данных Lahman Baseball Database и выдал запрос, который возвращает итоги хоумранов для всех игроков в предыдущих пяти сезонах, у которых было не менее 50 игроков в сезоне.

Таблица выглядит следующим образом (обратите внимание на Хосе Баутиста в строке 10)

     first     last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1    Bobby    Abreu      15      16      20      15      20
2   Garret Anderson      17      16      15      13       2
3  Bronson   Arroyo       2       1       1       0       1
4  Garrett   Atkins      29      25      21       9       1
5     Brad   Ausmus       2       3       3       1       0
6     Jeff    Baker       5       4      12       4       4
7      Rod  Barajas      11       4      11      19      17
8     Josh     Bard       9       5       1       6       3
9    Jason Bartlett       2       5       1      14       4
10    Jose Bautista      16      15      15      13      54

и полный результат (232 строки) доступен здесь .

Я действительно не знаю, с чего начать. Может кто-то указать мне верное направление? Некоторые соответствующие теории и R команды были бы особенно полезны.

Спасибо

Томми

Примечание: пример немного надуманный. Хоум-раны определенно не лучший показатель ценности игрока, а итоги хоум-ранов не учитывают разное количество шансов в сезоне, что у бэттера есть шанс попасть в хоум-раны (появление на пластине). Также это не отражает того, что некоторые игроки играют на более благоприятных стадионах, и что средний пробег в лиге меняется с каждым годом. И т. Д. И т. Д. Если я могу понять теорию, лежащую в основе учета регрессии к среднему, я могу использовать ее для более подходящих показателей, чем для HR.

r regression modeling

— TMOD
источник

2

Бейсбол - любимый источник многих статистиков США, поэтому поиск в Google (/ Scholar) вызовет несколько соответствующих статей, например, Morrison and Schmittlein (1981) jstor.org/stable/2630890 . Я оставлю это кому-то более знакомому с бейсболом и Р., чтобы ответить на ваш вопрос.

— OneStop

1

Я бы также предложил вам ознакомиться с работой Джей Си Брэдбери и его блогом Sabernomics, sabernomics.com/sabernomics . Его книга об измерении ценности игрока, вероятно, будет проницательна относительно того, какие характеристики предсказывают будущую производительность.

— Энди В.

2

Проблема, как указано, немного похожа на проблему выбросов , но не так, как обычно думают о выбросах. Чтобы включить поразительный результат (т. Е. Выброс), вам понадобится «распределение выборки» с тяжелым хвостом (результат Хосе значительно превышает 3 стандартных отклонения от его среднего значения по прошлым данным), так что это может помочь лучше подогнать ваши данные, и учитывать это в прогнозе.

— вероятностная

Если бы вы рассмотрели грубый маленький ярлык в дополнение ко всем более сложным комментариям, появляющимся здесь, есть тест Диксона на выбросы, который вы можете выполнить на выборке всего за 4. См. Cee.vt.edu/ewr/environmental/teach/smprimer / outlier /…

— rolando2

3

Я думаю, что определенно есть байесовская усадка или предварительная коррекция, которая могла бы помочь в прогнозировании, но вы можете также рассмотреть другой вариант ...

Посмотрите на игроков в истории, а не только в последние несколько лет, у которых были сезонные прорывы после пары в крупных компаниях (резкое увеличение возможно в 2 раза) и посмотрите, как они это сделали в следующем году. Вполне возможно, что вероятность поддержания производительности есть правильный предсказатель.

Существует множество способов взглянуть на эту проблему, но, как сказал mpiktas, вам понадобится больше данных. Если вы просто хотите иметь дело с последними данными, вам придется посмотреть общую статистику лиги, питчеров, с которыми он столкнулся, это сложная проблема.

А потом просто с учетом собственных данных Баутиста. Да, это был его лучший год, но впервые с 2007 года у него было более 350 АБ (569). Возможно, вы захотите пересчитать процентное увеличение производительности.

— Джон
источник

3

Вы можете приспособить модель только к этим данным и получить прогнозы, которые учитывают регрессию к среднему значению, используя смешанные (многоуровневые) модели. Предсказания от таких моделей объясняют регрессию к среднему значению. Даже не зная почти ничего о бейсболе, я не нахожу результатов, которые я получил ужасно правдоподобно, поскольку, как вы говорите, модель действительно должна учитывать другие факторы, такие как внешний вид пластин.

Я думаю, что модель со смешанными эффектами Пуассона была бы более подходящей, чем линейная смешанная модель, так как количество хоум-ранов является подсчетом. Глядя на предоставленные вами данные , гистограмма hrпоказывает, что они сильно искажены, что говорит о том, что линейная смешанная модель не будет работать хорошо и включает в себя довольно большое количество нулей с первым или без преобразования лог-кода.

Вот некоторый код, использующий lmerфункцию из пакета lme4 . Создав переменную ID для идентификации каждого игрока и преобразовав данные в «длинный» формат, как указано в его ответе mpiktas (я сделал это в Stata, так как я не очень хорош в управлении данными в R, но вы могли бы сделать это в пакет электронных таблиц):

Year.c <- Year - 2008   # centering y eases computation and interpretation
(M1 <- lmer(HR ~ Year.c + (Year.c|ID), data=baseball.long, family=poisson(log), nAGQ=5))

Это соответствует модели с лог-ссылкой, дающей экспоненциальную зависимость коэффициента успешности от года, которая может варьироваться между игроками. Возможны и другие функции связи, хотя идентификационная ссылка дала ошибку из-за отрицательно подобранных значений Ссылка sqrt работала нормально, хотя и имеет меньшие значения BIC и AIC, чем модель со ссылкой журнала, поэтому она может быть более подходящей. Прогнозы по скорости попадания в 2011 году чувствительны к выбранной функции связи, особенно для таких игроков, как Баутиста, чей показатель популярности сильно изменился в последнее время.

Боюсь, мне не удалось получить такие прогнозы lme4. Я более знаком со Stata, который позволяет очень легко получать прогнозы для наблюдений с пропущенными значениями для результата, хотя xtmelogit , по- видимому , не предлагает какого-либо выбора функции связи, кроме log, что дало прогноз 50 для Bautista. Домой бежит в 2011 году. Как я уже сказал, я не считаю это ужасно правдоподобным. Я был бы признателен, если бы кто-то мог показать, как генерировать прогнозы на 2011 год из приведенных выше lmerмоделей.

Модель авторегрессии , такие как AR (1) для ошибок игрок уровня может быть интересна, но я не знаю , как совместить такую структуру со смешанной моделью Пуассона.

— одна остановка
источник

с помощью функции melt из пакета изменить форму, преобразование в длинный формат занимает одну строку в R, melt (data, id = 1: 2).

— mpiktas

Интересное расширение / альтернатива этому состоит в том, чтобы согласовать иерархическую модель с распределением выборки Поссиона с параметром выборочной частоты (1 скорость в год), но распределением выборки Коши для параметра скорости (вместо нормальной или нормальной смеси). Распределение Коши позволит учесть экстремальное событие (путем выборки большого параметра скорости). Промежуточным случаем (между нормалью и Коши) является t-распределение. (Коши легче выбрать, так как он может использовать метод обратного CDF).

— вероятностная

2

Вам нужны дополнительные данные об игроках и их характеристиках за тот промежуток времени, когда у вас есть данные о хоум-ранах. Для первого шага добавьте некоторые изменяющиеся во времени характеристики, такие как возраст игрока или опыт. Тогда вы можете использовать HLM или панельные модели данных. Вам нужно будет подготовить данные в форме:

    First Last  Year HR Experience Age
1.  Bobby Abreu 2005 15     6      26

Тогда самая простая модель будет (функция lme из пакета nlme )

lme(HR~Experience,random=~Experience|Year,data=your_data)

Эта модель будет в значительной степени опираться на предположение, что число хоум-ранов каждого игрока зависит только от опыта, допускающего некоторую изменчивость. Вероятно, это будет не очень точно, но вы по крайней мере почувствуете, насколько маловероятны цифры Хосе Баутиста по сравнению со средним игроком. Эта модель может быть улучшена путем добавления характеристик других игроков.

— mpiktas
источник

Я бы не сказал , что @TMOD нужно больше данных, так что предсказания могут быть более точными , если @TMOD имели больше данных. В вопросе достаточно информации для составления прогноза.

— вероятностная

@probabilityislogic, да, для генерации прогноза достаточно информации, но тогда модель будет иметь только перехват.

— mpiktas

необязательно, можно было бы подобрать модель AR (1) или AR (2) к этим данным

— вероятностная

@probabilityislogic, ах да, ты прав.

— mpiktas

2

Возможно, вы захотите проверить Книжный блог.

Том Танго и другие авторы книги «Процент в бейсболе», вероятно, являются лучшими источниками саберметрии. В частности, они любят регресс до среднего. Они придумали систему прогнозирования, разработанную, чтобы быть самой базовой приемлемой системой (Марсель), и она основана почти исключительно на регрессии до среднего.

Вдобавок ко всему, я полагаю, что один из методов - использовать такой прогноз для оценки истинного таланта, а затем найти подходящее распределение вокруг этого среднего таланта. Как только вы это получите, каждый внешний вид пластины будет похож на испытание Бернулли, так что биномиальное распределение может пройти вас до конца.

— Майкл МакГоуэн
источник

1

К вашему сведению, с 2011 по 2014 год он ударил 43, 27, 28 и 35.

Это довольно близко к его 162 играм в среднем 32 (что, конечно, включает в себя эти значения), и около 1 SD под 54 в 2010 году.

Выглядит как регрессия к среднему значению в действии: экстремальная группа, построенная на использовании зашумленных предметов (в данном случае 1), случайно отклоняющихся от своей группы.

http://www.baseball-reference.com/players/b/bautijo02.shtml

— Тим
источник