Предыдущие исследователи не смогли обнаружить горячую руку просто из-за статистической ошибки?

11

Многие фанаты / игроки в баскетбол считают, что, сделав несколько ударов подряд, следующий выстрел будет более вероятным. Иногда это называют горячей рукой.

Начиная (я думаю) с Гиловича, Маллоне и Тверского (1985) , было «показано», что это на самом деле заблуждение. Даже если было сделано несколько снимков подряд, следующий снимок будет сделан с большей вероятностью, чем ваш средний процент снимков.

Миллер и Санжурджо (2015) утверждают, что горячая рука действительно существует, и предыдущие исследователи просто пали жертвой довольно простой статистической ошибки. Их аргумент примерно такой:

Переверните монету четыре раза. Вычислите вероятность того, что H следует за H. Чтобы привести несколько примеров: HHTT будет иметь вероятность 1/2, HTHT будет иметь вероятность 0/2, TTHH будет иметь вероятность ~~0/1~~ 1/1, а TTTT и TTTH будут NA

Изюминкой Миллера и Санджурьо является то, что ожидаемое значение этой вероятности не 0,5, а 0,4. И ошибка, допущенная предыдущими исследователями, заключалась в неправильном предположении, что ожидаемое значение этой вероятности составляет 0,5. Так, например, если эти предыдущие исследователи провели вышеупомянутый эксперимент с подбрасыванием монет и нашли среднюю вероятность, скажем, 0,497, они неверно пришли к выводу, что не было признаков горячей руки (незначительно отличающейся от 0,5), когда на самом деле было очень убедительные доказательства горячей руки (значительно отличается от 0,4).

Мой вопрос таков: правы ли Миллер и Санджурджо, что предыдущие исследователи не смогли обнаружить горячую руку просто из-за этой ошибки? Я просмотрел только одну или две статьи по этому вопросу, поэтому я хотел получить подтверждение от кого-то, кто знает эту литературу лучше. Это кажется удивительно глупой ошибкой, которая сохранялась в течение трех и более лет.

academic-graduate statistics

— Кенни ЖЖ
источник

3

Это опасный вопрос для этого сайта в том смысле, что его довольно сложно оценить, особенно для посторонних. И именно так мы «определяем» лучшие ответы большинством голосов. Обязательно прочитайте все ответы и проголосуйте только за те из них, которые кажутся правильными после прочтения всех из них, и за те, которые оставляют вас неудовлетворенными / подозрительными.

— FooBar

1

Это потому, что правильный ответ может быть нелогичным. Если бы такой сайт, как этот, существовал 60 лет назад, я не думаю, что правильный ответ на проблему Монти Холла, которая имеет аналогичные свойства, был бы на первом месте благодаря голосованию большинства.

— FooBar

@FooBar, чтобы добавить к вашей точке зрения, здесь сразу возникают два сложных вопроса: (1) «Каков математический эффект, который обсуждают Миллер и Санджуро» - это не тот вопрос, который задал Кенни ЖЖ, но Хороший вопрос, потому что требуется много чтения, чтобы понять и является относительно объективным. Затем (2) звучит так: «Делает ли это недействительным предшествующее исследование», которое кажется субъективным и основанным на мнении…

— usul

@usul: В некоторых случаях в экономике этот второй вопрос («Это лишает законной силы предшествующее исследование?») действительно является более спорным и основанным на мнениях - например, противоречие по статье Reinhart and Rogoff (2010). Но я думаю, что в этом случае у нас есть четко определенная математическая проблема. И как я попытался показать в своем ответе ниже (который я только что переписал еще раз для ясности и краткости), Миллер и Санджуржо (2015) действительно преуспели в опровержении выводов Гиловича, Маллоне и Тверского (1985).

— Кенни ЖЖ

@KennyLJ, они показали, что одно из доказательств в газете 1985 года является недействительным. Этот вопрос очень отличается от того, чтобы показать, что заключение неверно, например, показать, что эффект горячей руки определенно существует.

— усуль

6

(Этот ответ был полностью переписан для большей ясности и читаемости в июле 2017 года.)

Переверните монету 100 раз подряд.

Изучите бросок сразу же после полосы из трех хвостов. Пусть будет пропорцией подбрасывания монеты после каждой полосы трех хвостов в ряду, которые являются головами. Аналогично, пусть будет пропорцией подбрасываний монет после каждой серии трех головок, являющихся головами. ( Пример внизу этого ответа. ) $\hat{p}(H|3T)$ $\hat{p}(H|3H)$

Пусть . $x:=\hat{p}(H|3H)-\hat{p}(H|3T)$

Если подбрасывают монеты, то «очевидно», во многих последовательностях 100 монетных бросков,

(1) ожидается, что случится так же часто, как . $x>0$ $x<0$

(2) . $E(X)=0$

Мы генерируем миллион последовательностей из 100 монетных бросков и получаем следующие два результата:

(I) происходит примерно так же часто, как . $x>0$ $x<0$

(II) ( - это среднее значение для миллиона последовательностей). $\bar{x} \approx 0$ $\bar{x}$ $x$

И поэтому мы приходим к выводу, что подбрасывание монет действительно происходит, и нет никаких признаков горячей руки. Это то, что сделал GVT (1985) (но с бросками баскетбола вместо бросков монет). И вот как они пришли к выводу, что горячей руки не существует.

Изюминка: шокирующе, (1) и (2) неверны. Если монеты есть, то вместо этого должно быть

(С поправкой 1) встречается только в 37% случаев, а 60% случаев. (В оставшиеся 3% времени либо либо не определено - либо потому, что в 100 сальто не было ни полосы 3H, ни полосы 3T.) $x>0$ $x<0$ $x=0$ $x$

(Исправлено 2) . $E(X) \approx -0.08$

Используемая интуиция (или контр-интуиция) аналогична той, которая существует в некоторых других известных загадках вероятности: проблема Монти Холла, проблема двух мальчиков и принцип ограниченного выбора (в мосте карточной игры). Этот ответ уже достаточно длинный, поэтому я пропущу объяснение этой интуиции.

И поэтому сами результаты (I) и (II), полученные GVT (1985), на самом деле являются убедительным доказательством в пользу горячей руки. Это то, что показали Миллер и Санжурджо (2015).

Дальнейший анализ таблицы 4 GVT.

Многие (например, @scerwin ниже) - не удосужившись прочитать GVT (1985) - выразили недоверие к тому, что любой «обученный статистик когда-либо» будет брать среднее значение в этом контексте.

Но это именно то, что GVT (1985) сделал в своей таблице 4. См. Их таблицу 4, столбцы 2-4 и 5-6, нижний ряд. Они находят, что в среднем по 26 игрокам,

$\hat{p}(H|1M) \approx 0.47$ и , $\hat{p}(H|1H) \approx 0.48$

$\hat{p}(H|2M) \approx 0.47$ и , $\hat{p}(H|2H) \approx 0.49$

$\hat{p}(H|3M) \approx 0.45$ и . $\hat{p}(H|3H) \approx 0.49$

На самом деле это тот случай, когда для каждого , усредненная . Но аргумент GVT, кажется, заключается в том, что они не являются статистически значимыми, и поэтому они не являются доказательством в пользу горячей руки. ОК, достаточно справедливо. $k=1,2,3$ $\hat{p}(H|kH)>\hat{p}(H|kM)$

Но если вместо того, чтобы брать среднее значение средних (ход, который некоторые считают невероятно глупым), мы переделываем их анализ и агрегируем по 26 игрокам (100 выстрелов для каждого, за некоторыми исключениями), мы получаем следующую таблицу взвешенных средних.

Any                     1175/2515 = 0.4672

3 misses in a row       161/400 = 0.4025
3 hits in a row         179/313 = 0.5719

2 misses in a row       315/719 = 0.4381
2 hits in a row         316/581 = 0.5439        

1 miss in a row         592/1317 = 0.4495
1 hit in a row          581/1150 = 0.5052

Например, в таблице говорится, что 26 игроков сделали в общей сложности 2515 ударов, из которых было сделано 1175 или 46,72%.

И из 400 случаев, когда игрок пропустил 3 подряд, 161 или 40,25% сразу же последовали за попаданием. А из 313 случаев, когда игрок ударил 3 подряд, 179 или 57,19% сразу же последовали за хитом.

Вышеупомянутые средневзвешенные значения кажутся убедительным доказательством в пользу горячей руки.

Имейте в виду, что эксперимент по стрельбе был организован так, что каждый игрок стрелял из того места, где было определено, что он / она может сделать примерно 50% своих бросков.

(Примечание: достаточно странно, что в Таблице 1 для очень похожего анализа со стрельбой в игре Sixers, GVT вместо этого представляют взвешенные средние значения. Так почему же они не сделали то же самое для Таблицы 4? Я предполагаю, что они определенно рассчитал средневзвешенные значения для таблицы 4 - числа, которые я представил выше, не понравились тем, что они увидели, и решили их подавить. Такое поведение, к сожалению, является нормой для курса в академических кругах.)

Пример : скажем, у нас есть последовательность (только броски # 4- # 6 - это хвосты, остальные 97 бросков - все головы). Тогда потому что есть только 1 полоса из трех хвостов, и бросок сразу после этой полосы - головы. $HHHTTTHHHHH…H$ $\hat{p}(H|3T)=1/1=1$

И потому что есть 92 полосы трех голов, а для 91 из этих 92 полос бросок сразу после них является головами. $\hat{p}(H|3H)=91/92 \approx 0.989$

PS GVT (1985) Таблица 4 содержит несколько ошибок. Я заметил как минимум две ошибки округления. А также для игрока 10 значения в скобках в столбцах 4 и 6 не складываются на единицу меньше значения в столбце 5 (в отличие от примечания внизу). Я связался с Гиловичем (Тверский мертв, а Валлоне я не уверен), но, к сожалению, у него больше нет оригинальных последовательностей попаданий и промахов. Таблица 4 - это все, что у нас есть.

— Кенни ЖЖ
источник

Глядя на таблицу 4 по Гринвичу 1985 года, они протестировали 26 отдельных учеников и нашли только один пример статистически значимой «горячей руки» (они проверяли каждый случай на p <0,05). Это эффект зеленого желе . Кроме того, если бы каждый ученик был точно позиционирован так, чтобы он / она мог сделать около 50% своих снимков, то гораздо меньше 7 учеников должны были иметь показатели попаданий вне диапазона 40-60 из 100 (если только есть массивный эффект горячей руки)

— Генри

4

(Отказ от ответственности: я не знаю эту литературу.) Мне кажется, что Миллер и Санджурджо справедливо критикуют конкретную статистическую меру. Я не знаю, следует ли считать это недействительным всю предыдущую работу по эффекту «горячей руки», поскольку они сосредоточены только на этой конкретной мере.

Мера

M := P (make shot | made previous shot) - P (make shot | miss previous shot)

$M := P(\text{make shot }|\text{ made previous shot}) - P(\text{make shot }|\text{ miss previous shot})$ где действительно означает «долю времени произошло».

P (X)

$P(X)$

X

$X$

В предыдущих работах, таких как [Gilovich, Mallone, Tversky, 1985], утверждается, что значение , близкое к нулю или отрицательное, свидетельствует об отсутствии эффекта горячей руки. Неявное предположение состоит в том, что если есть эффект горячей руки, и противном случае. (См. Подраздел « Анализ условных вероятностей» в исследовании 2). $M$ $\mathbb{E} M > 0$ $\mathbb{E} M = 0$

Однако Миллер и Санджурджо указывают, что если нет эффекта горячей руки. Следовательно, значение , близкое к нулю, не предполагает отсутствия эффекта горячей руки. $\mathbb{E} M < 0$ $M$

Итак, еще раз в заключение, я на самом деле не ответил на ваш вопрос о том, является ли этот документ недействительным предыдущей работы по эффекту горячей руки (который использует много различных статистических показателей), но мне кажется, что в документе делается обоснованная точка зрения в отношении этой конкретной статистической меры , В частности, например, Гилович, Маллоне, Тверский использует непозитивность качестве одного из подтверждающих доказательств, и эта статья показывает недостаток в этом аргументе. $M$

— усул
источник

3

Ни один из этих двух документов не достаточно ясен в отношении их применения Статистики, поэтому в этом ответе я попытаюсь разъяснить.

Гилович, Маллоне и Тверски (1985) в своем Резюме определяют «эффект горячей руки» следующим образом:

«Как баскетболисты, так и фанаты склонны считать, что у игрока больше шансов нанести удар после удара, чем после промаха предыдущего выстрела ».

«Предыдущий снимок» затем распространяется на предыдущие «один, два или три» снимка. Обозначая серию последовательных хитов и серию последовательных , наличие эффекта Hot-Hand определяется как $k$ $H_k$ $k$ $M_k$

\begin{matrix} (1) & P (H ∣ H_{k}) > P (H ∣ M_{k}), k \geq 1 \end{matrix}

$P(H \mid H_k) > P(H\mid M_k),\;\;\; k\geq 1 \tag{1}$

где для компактности подразумевается, что рассматриваемый выстрел - тот, который непосредственно следует за последовательными попаданиями или промахами. Это теоретические условные вероятности (то есть константы), а не условные относительные эмпирические частоты.

Как авторы пытаются проверить существование эффекта «горячей руки»? Они получают эмпирические данные, они вычисляют условные относительные эмпирические частоты (которые являются случайными переменными), и они выполняют t-тесты с нулевой гипотезой (стр. 299-300) $\hat P(H \mid H_k) ,\; \hat P(H\mid M_k)$

H_{o} : P (H ∣ H_{k}) - P (H ∣ M_{k}) = 0

${\rm H_o:} P(H \mid H_k) - P(H\mid M_k) =0$

Обратите внимание на то, что этот тест слабее, чем тест на независимость кадров: эти вероятности могут быть равными, но все же отличаться от безусловной вероятности . $P(H)$

Естественно, используемой статистикой является . Авторы считают, что ноль отклоняется на обычных уровнях значимости, но в направлении против гипотезы «горячей руки»: значение t достаточно велико, но отрицательно. $T\equiv \hat P(H \mid H_k) - \hat P(H\mid M_k)$

Тогда возникает вопрос: действителен ли тест? Во-первых, чтобы эмпирические частоты последовательно оценивали неизвестные вероятности, это должен быть случай, когда выборка является эргодически-стационарной. Это в данном случае (см. Обсуждение на стр.297). Тогда другой вопрос, который остается под вопросом, каково распределение статистики ? Хорошо ли он аппроксимируется распределением Стьюдента для конечных выборок (поскольку используются критические значения из распределения Стьюдента)? И для каких размеров? $T$

То, что делают Миллер и Санжурджо (2015) , - это доказывать (и, по-видимому, доказывать), что «точное» (конечная выборка) распределение имеет ничтожно малый отрицательный перекос и ненулевое ожидаемое значение (см. Стр. 18- 19). Если это так, использование t-критерия может вводить в заблуждение , по крайней мере, для конечных выборок, хотя оно может оставаться действительным асимптотически / для «больших» выборок. $T$

Поэтому, если есть проблема с Гиловичем и соавт. бумага, это не определение «горячей руки», это не формулировка нулевой гипотезы, это не выбор статистики, которая будет использоваться: это достоверность критических значений, используемых для выполнения тестов ( и так из неявного предположения о распределении), если действительно конечное распределение с малой выборкой (согласно нулевой гипотезе) явно не центрировано в нуле и также асимметрично.

В таких случаях обычно получают путем моделирования специальные критические значения для выполнения теста (вспомните, например, специальные критические значения для теста Дики-Фуллера для единичного корня). Мне не удалось увидеть такой подход в работе с бумагами Миллера-Санджуржо, они выполняют «регулировку среднего смещения» и обнаруживают, что после этой корректировки вывод из теста меняется на противоположный. Я не уверен, что это путь.

Тем не менее, грубое моделирование подтверждает результаты Миллера-Санжурджо в отношении распределения статистики. Я моделировал образцов размером , каждый из которых был независимым Бернулли с . Эмпирическое распределение статистики имеет выборочное среднее значение и медиану , при этом значений являются отрицательными , Эмпирическая гистограмма $200$ $n=100$ $p=0.5$
$T_3 = \hat P(H \mid H_3) - \hat P(H\mid M_3)$ $-0.0807$ $-0.072$ $62.5\%$

введите описание изображения здесь

— Алекос Пападопулос
источник

1

На мой взгляд, Миллер и Санджурджо просто неправильно рассчитали относительные частоты в Таблице 1. Их таблица показана ниже с добавлением двух новых столбцов, которые подсчитывают количество подпоследовательностей HH и HT, которые встречаются в каждой последовательности из четырех подбрасываний монет. Чтобы получить желаемую условную вероятность p (H | H), необходимо сложить эти числа N (HH) и N (HT), а затем разделить, как показано ниже. Это дает p (H | H) = 0,5, как и ожидалось. По какой-то причине Миллер и Санджурджо сначала рассчитали относительную частоту для каждой последовательности, а затем усреднили по последовательностям. Это просто неправильно.

Sequence     Subsequences       N(HH) N(HT)    p(H|H)
TTTT  ->  TT.. , .TT. , ..TT      0     0        -  
TTTH  ->  TT.. , .TT. , ..TH      0     0        -  
TTHT  ->  TT.. , .TH. , ..HT      0     1       0.0 
THTT  ->  TH.. , .HT. , ..TT      0     1       0.0 
HTTT  ->  HT.. , .TT. , ..TT      0     1       0.0 
TTHH  ->  TT.. , .TH. , ..HH      1     0       1.0 
THTH  ->  TH.. , .HT. , ..TH      0     1       0.0 
THHT  ->  TH.. , .HH. , ..HT      1     1       0.5 
HTTH  ->  HT.. , .TT. , ..TH      0     1       0.0 
HTHT  ->  HT.. , .TH. , ..HT      0     2       0.0 
HHTT  ->  HH.. , .HT. , ..TT      1     1       0.5 
THHH  ->  TH.. , .HH. , ..HH      2     0       1.0 
HTHH  ->  HT.. , .TH. , ..HH      1     1       0.5 
HHTH  ->  HH.. , .HT. , ..TH      1     1       0.5 
HHHT  ->  HH.. , .HH. , ..HT      2     1       0.66
HHHH  ->  HH.. , .HH. , ..HH      3     0       1.0 
                                 --    --       ----
                                 12    12       0.40
                            p(H|H)=N(HH)/N(H*)
                                  =12/(12+12)
                                  =0.5

— scerwin
источник

Их аргумент заключается в том, что вместо расчета отдельных случаев ТТ и ТН (как вы это делали) вероятности p (H | H) должны быть усреднены (поскольку все последовательности одинаково вероятны).

— Жискар

1

Возможно, более простая таблица сделает их ошибку более очевидной. Давайте позволим только две конкретные последовательности с 4 переворотами: TTHT и HHHH. Они дают следующие 2-обратные подпоследовательности: TT, TH, HT, HH, HH, HH. Из этого списка довольно очевидно, что когда первая перевернутая монета показывает H, очень вероятно, что за ней последует другая H (это происходит 3 из 4 раз). Действительно, «горячая монета»! Но метод Миллера и Санджурджо вообще не предсказывает нагрев, потому что среднее значение частот для TTHT и HHHH (0,0 и 1,0) составляет 0,5. С другой стороны, обычный метод дает правильный ответ: p (H | H) = 3 / (3 + 1) = 0,75.

— Шервин

Я думаю, что их точка зрения состоит в том, что эта «ошибка», которую вы указываете, была именно тем, что делали ранние исследователи.

— Кенни ЖЖ

1

Может быть. Но верно ли это утверждение о предыдущих исследователях? Ни один опытный статистик никогда не рассчитал бы вероятность, как это сделали Миллер и Санджурджо в Таблице 1. Это аналогично вычислению среднего значения для игрока в бейсболе, сначала вычисляя его среднее для каждой игры, а затем усредняя по играм. Это просто неправильно.

— Сцервин

«Но верно ли это утверждение о предыдущих исследователях? Ни один обученный статистик никогда не вычислит вероятность, как это сделали Миллер и Санджурджо в Таблице 1». Возможно, вам стоит потратить время на чтение рассматриваемых статей. Особенно GVT (1985).

— Кенни ЖЖ

0

В любой наблюдаемой последовательности последнее условие «отсутствует» в том смысле, что впоследствии значение отсутствует. Авторы имеют дело с этим, просто игнорируя случаи, когда это происходит, говоря, что они не определены. Если серия короткая, этот выбор окажет очевидное влияние на расчеты. Рисунок 1 - хорошая иллюстрация этой идеи.

-1

Я собираюсь изменить комментарий, который я сделал выше, на ответ, и утверждаю, что ответ на первоначальный вопрос заключается в том, что исходные документы верны. Авторы статьи 2015 года отбрасывают последовательности, которые должны быть логически включены в их анализ, как я описываю в комментарии, и поэтому вводят предвзятость, подтверждающую их утверждения. Мир работает как надо.

Приложение в ответ на комментарий: Мы смотрим на таблицу 1 в документе. Мы видим, что выбрасываем 4 значения из последнего столбца, поэтому, чтобы получить ожидаемую разницу, мы усредняем только по 12 из 16 последовательностей. Если мы посмотрим на эти вероятности как на частоты и скажем, для первой строки TTTT, какова частота, с которой голова следует за головой, то логически это всегда происходит, и мы должны поставить 1 в p (H, H ) столбец, а не тире. Мы делаем это для остальных трех последовательностей, которые мы выбросили, и заключаем, что ожидаемое значение разности равно 0, а не -.33. Мы не можем просто выбросить такие данные, когда есть четкая логическая интерпретация данных.

Обратите внимание, что для того, чтобы смещение исчезло, мы должны правильно рассчитать вероятности, что не сделано в статье. Утверждается, что вероятности в таблице - это «вероятность того, что голова следует за хвостом в данной последовательности из четырех бросков». И мы видим, что для строки TTTH мы должны верить, что вероятность составляет 1/3. Это не. В этом ряду четыре броска, и один из четырех бросков в этом ряду - это событие «голова следует за хвостом». Вероятность составляет 1/4. Поэтому правильно рассчитайте вероятности и используйте все строки, и вы получите ответ, принятый в течение 30 лет.

— user164740
источник

Вопрос в том, правы ли Miller и Sanjurjo (2015), указав, что предыдущие исследователи допустили ошибку (и поэтому не смогли обнаружить горячую руку). Если так, пожалуйста, объясните. Если нет, пожалуйста, объясните. Вопрос не в том, можем ли мы или не можем «просто выбросить такие данные» или «мир работает так, как должен».

— Кенни ЖЖ

Миллер и Санджуро не правы, потому что они выбрасывают данные, которые логически относятся к анализу, и, следовательно, вносят смещение, которого нет в мире.

— user164740 15.07.15