Вероятность единственного реального будущего события: что это значит, когда они говорят, что «Хиллари имеет 75% шансов на победу»?


79

Поскольку выборы - одноразовое событие, это не эксперимент, который можно повторить. Так что же технически означает утверждение «Хиллари имеет 75% шанс на победу» ? Я ищу статистически правильное определение, а не интуитивное или концептуальное.

Я - любитель статистики, который пытается ответить на этот вопрос, который возник в ходе обсуждения. Я почти уверен, что есть хороший объективный ответ, но я не могу придумать это сам ...


4
Поскольку опросы не дают вероятностных оценок и без дополнительного контекста, похоже, что это утверждение основано на текущих результатах одного из рынков прогнозирования, например, электронного рынка Айовы (см. Tippie.uiowa.edu/iem ). См. Их страницу Методологии или любую из многих статей о рынках предсказания для более глубоких объяснений.
Майк Хантер

13
Ключевой вопрос здесь заключается в том, можем ли мы прикрепить вероятности к уникальным (то есть одноразовым) событиям, где мы не можем применять эмпирические вероятности в духе «если я бросаю честный кубик большое количество раз, то пропорцию раз я рулон шесть приблизится к одной шестой ». Но есть аргумент, что простая субъективная степень веры все еще должна вести себя на практике как «вероятность» - более технически, должна подчиняться аксиомам вероятности. Таким образом, философский подход к этому вопросу может ссылаться на так называемый аргумент голландской книги .
Серебряная рыба

19
75% вещей с вероятностью 75% произойдут.
user253751

2
Это зависит от источника заявления; в некоторых случаях это относится к вероятности в рамках некоторой модели, например (как в случае оценки вероятности на сайте Fivethirtyeight.com), но в других случаях это относится к другому контексту и может означать что-то другое.
Glen_b

3
Из этих опросов я бы прочитал, что ожидаемый результат Клинтона - победа, но доверительный интервал чисел таков, что вероятность того, что фактический результат не совпадает с ожидаемым результатом, составляет 25% .
JimmyB

Ответы:


60

Все представленные ответы полезны, но они не очень статистически точны, так что я попробую. В то же время я собираюсь дать общий ответ, а не фокусироваться на этих выборах.

Первое, что нужно иметь в виду, когда мы пытаемся ответить на вопросы о реальных событиях, таких как победа Клинтона на выборах, в отличие от вымышленных математических задач, таких как вынимание шариков разных цветов из урны, заключается в том, что t единственный разумный способ ответить на вопрос и, следовательно, не единственный разумный ответ. Если кто-то просто говорит, что «Хиллари имеет 75% -ный шанс на победу», и не будет описывать свою модель выборов, данные, которые он использовал для своих оценок, результаты проверки своей модели, свои исходные предположения, Имеется в виду народное голосование или голосование на выборах и т. д., тогда они на самом деле не сказали вам, что они имеют в виду, а тем более предоставили достаточно информации, чтобы вы могли оценить, насколько их прогноз хорош. Кроме того, это не

Итак, какие процедуры может использовать статистик для оценки шансов Клинтона? В самом деле, как они могут решить проблему? На высоком уровне существуют различные понятия самой вероятности, два из наиболее важных из которых - частые и байесовские.

  • Согласно частому представлению, вероятность представляет собой предельную частоту события в течение многих независимых испытаний одного и того же эксперимента, как в законе больших чисел (сильных или слабых). Даже если какие-то конкретные выборы являются уникальным событием, их результат можно рассматривать как результат бесконечной совокупности исторических и гипотетических событий, которые могут включать все выборы президента США или все выборы в мире в 2016 году или что-то еще. Шанс 75% на победу в Клинтоне означает, что если - это последовательность результатов (0 или 1) независимых выборов, которые полностью эквивалентны этим выборам, если говорить о нашей модели, то выборочное среднее значение сходится по вероятности к 0,75 какX 1 , X 2 , , X n nX1,X2,X1,X2,,Xnn уходит в бесконечность.

  • С точки зрения байесовской вероятности вероятность представляет собой степень правдоподобности или достоверности (которая может быть или не быть фактической верой, в зависимости от того, являетесь ли вы субъективистом байесовским). Шанс 75% на победу Клинтон означает, что она на 75% вероятна, что она победит. Кредиты, в свою очередь, могут выбираться свободно (на основе ранее существовавших убеждений модели или аналитика) в рамках ограничений основных законов вероятности (таких как теорема Байеса и тот факт, что вероятность совместного события не может превышать предельную вероятность любого из компонент событий). Один из способов обобщить эти законы состоит в том, что если вы делаете ставки на исход события, предлагая игрокам шансы в соответствии с вашими надеждами, то ни один игрок не может создать голландскую книгупротив вас, то есть набор ставок, который гарантирует, что вы потеряете деньги, независимо от того, как на самом деле происходит событие.

Независимо от того, принимаете ли вы частые или байесовские взгляды на вероятность, еще предстоит принять много решений о том, как анализировать данные и оценивать вероятность. Возможно, самый популярный метод основан на параметрических моделях регрессии, таких как линейная регрессия. В этой настройке аналитик выбирает параметрическое семейство распределений (то есть вероятностных мер ), которое индексируется вектором чисел, называемым параметрами. Каждый результат представляет собой независимую случайную переменную, взятую из этого распределения, преобразованную в соответствии с ковариатами, которые являются известными значениями (такими как уровень безработицы), которые аналитик хочет использовать для прогнозирования результата. Аналитик выбирает оценки значений параметров, используя данные и критерий соответствия модели, такой как наименьшие квадратыили максимальная вероятность . Используя эти оценки, модель может произвести прогнозирование результата (возможно, только одно значение, возможно , интервал или другой набор значений) для любого заданного значения ковариат. В частности, он может предсказать исход выборов. Помимо параметрических моделей, существуют непараметрические модели (то есть модели, определяемые семейством распределений, индексируемых бесконечно длинным вектором параметров), а также методы выбора прогнозируемых значений, в которых не используется модель, из которой вообще были сгенерированы данные. такие как классификаторы ближайшего соседа и случайные леса .

Составление прогнозов - это одно, но как узнать, хороши ли они? Ведь достаточно неточные прогнозы хуже бесполезных. Тестирование прогнозов является частью более широкой практики проверки модели, то есть количественной оценки того, насколько хороша данная модель для данной цели. Двумя популярными методами проверки прогнозов являются перекрестная проверка и разбиение данных на подмножества обучения и тестирования перед подборкой любых моделей. В той степени, в которой выборы, включенные в данные, являются репрезентативными для президентских выборов в США 2016 года, оценки точности прогнозирования, которые мы получаем из проверки прогнозов, сообщат нам, насколько точным будет наш прогноз относительно президентских выборов 2016 года в США.


Мне очень нравится этот ответ, указывая на то, что я ожидал увидеть две общие точки зрения. Я думаю, что меньше было бы больше, хотя.
Майк Уайз

4
Уже есть несколько кратких ответов. Я хотел сделать попытку более полной.
Kodiologist

7
Я не думаю, что частые взгляды правдоподобны. Такое событие, как выборы, по своей сути неслучайно. Если вы повторяете выборы миллион раз при одинаковых условиях, вы получите один и тот же результат миллион раз. Мы просто искусственно вводим случайность в наши модели, чтобы компенсировать наше неполное знание условий.
Стефан

6
Это не бесспорный вопрос в философии статистики. Я считаю, что ни одна модель в буквальном смысле не соответствует действительности, но некоторые модели более полезны, чем другие.
Кодиолог

32

Когда статистики хотят предсказать бинарный результат (Хиллари выигрывает против Хиллари не выигрывает), они воображают, что вселенная подбрасывает воображаемую монету - Головы, Хиллари выигрывает; хвосты она теряет. Для некоторых статистиков монета представляет степень их веры в результат; для других монета представляет то, что может произойти, если мы вновь и вновь возобновим выборы при одних и тех же обстоятельствах. С философской точки зрения, трудно понять, что мы имеем в виду, когда говорим о неопределенных будущих событиях, даже до того, как мы включим в них числа. Но мы можем посмотреть, откуда исходит число.

На данный момент на выборах, у нас есть последовательность результатов опроса. Они имеют форму: 1000 человек были опрошены, скажем, в Огайо. 40% поддерживают Трампа, 39% поддерживают Хиллари, 21% не определились. Были бы аналогичные опросы на предыдущих выборах для соответствующих кандидатов от демократов, республиканцев (и других партийных). За предыдущие годы также есть результаты. Возможно, вы знаете, что, скажем, кандидаты, получившие 40% голосов в опросе в июле, выиграли 8 из 10 предыдущих выборов. Или результаты могли бы сказать, что на 7 из 10 выборов демократы взяли Огайо. Вы можете знать, как Огайо сравнивается с Техасом (возможно, они никогда не выбирают одного и того же кандидата) - у вас может быть информация о том, как распадается нерешенное голосование - и у вас могут быть интересные модели того, что происходит, когда кандидат начинает «расти».

Поэтому, когда вы принимаете во внимание предыдущие выборы, вы можете сказать, что избирательная монета уже была брошена несколько раз. Одни и те же выборы не проводятся повторно каждые 4 года, но мы можем делать вид, что это своего рода. Из всей этой информации, опросы общественного мнения строят сложные модели, чтобы предсказать результат в этом году.

Вероятность победы Хиллари в 75% зависит от нашего уровня знаний "сегодня". Это говорит о том, что кандидат с результатами опроса, которые она имеет «сейчас», в тех штатах, в которых она у них есть, и с учетом тенденций в ее опросах на протяжении всей кампании, побеждает на выборах через 3 года из 4. Из месяца Теперь ее вероятность выигрыша будет меняться, потому что модель будет основана на состоянии опросов в августе.

В истории США не было статистически большого количества выборов, тем более с момента начала голосования. Мы также не можем быть уверены, что тенденции опроса, скажем, с 70-х годов, все еще применяются. Так что все немного хитроумно.

Суть в том, что Хиллари должна начать работу над своей инаугурационной речью.


1
У нее все еще есть речь о принятии номинации, чтобы пройти сначала.
WBT

26

Когда статистики говорят это, они не имеют в виду предел победы или долю голосов. Они проводят большое количество симуляций выборов и подсчитывают, какой процент голосов набирает каждый кандидат. Для многих надежных президентских моделей у них есть прогнозы для каждого штата. Некоторые из них близки, и если гонка будет проходить несколько раз, оба кандидата могут выиграть. Поскольку интервалы прогнозирования многократно перекрывают предел победы 0, это не бинарный ответ, а симуляция скажет нам более точно, чего ожидать.

Страница методологии FiveThirtyEight может помочь немного понять, что скрывается под капотом: http://fivethirtyeight.com/features/a-users-guide-to-fivethirtyeights-2016-general-election-forecast/


17

Есть эпизод радио freakonomics, который очень актуален для этого вопроса (в общем, не в специфике выборов). В нем Стивен Дубнер берет интервью у руководителя оборонного ведомства США, чтобы определить лучший способ прогнозировать глобальные политические события.

Это также помогает узнать больше о политике, чем большинство людей. Я бы сказал, что они являются почти необходимыми условиями для достижения успеха. Но их недостаточно, потому что есть много людей, которые очень умны и недалеки. Есть много людей, которые очень умны и думают, что невозможно привязать вероятности к уникальным событиям .

Затем они обсуждают, что не делать

если вы задаете такие типы вопросов, большинство людей спрашивают: «Как вы могли бы назначить вероятности тому, что кажется уникальным историческим событием?» Кажется, просто нет способа сделать это. Лучшее, что мы можем на самом деле сделать, это использовать расплывчатые слова, делать расплывчатые прогнозы. Мы можем сказать что-то вроде: «Ну, это может случиться. Это может случиться Это может произойти ». И сказать, что что-то может произойти, не сказать много.

Затем в эпизоде ​​рассматриваются методологии, которые наиболее успешные синоптики использовали для оценки этих вероятностей, отстаивая неформальный байесовский подход.

Итак, ничего не зная об африканском диктаторе или даже о стране, скажем, я никогда не слышал об этом диктаторе, я никогда не слышал об этой стране, и я просто смотрю на базовую ставку и говорю: «хм, похоже около 87 процентов ». Это будет моя первоначальная догадка. Тогда возникает вопрос: «Что мне делать?». Ну, тогда я начинаю узнавать что-то о стране и диктаторе. И если я узнаю, что данному диктатору 91 год и у него рак предстательной железы, я должен скорректировать свою вероятность . И если я узнаю, что в столице происходят беспорядки и намеки на военные перевороты, я должен снова скорректировать свою вероятность . Но начинать с вероятности базовой ставки - это хороший способ, по крайней мере, убедиться, что вы изначально окажетесь на уровне достоверности.

Эпизод называется « Как быть менее страшным при предсказании будущего» , и это очень забавное слушание. Я призываю вас проверить это, если вы заинтересованы в такого рода вещах!


3
+1. В более старом посте я набросал этот подход на работающем примере. Я стремился сделать это способом, нейтральным в отношении дебатов «Байесовский против частых», указав, что байесовские методы не являются единственным средством оценки вероятностей, составления прогнозов или предоставления полезной информации о, казалось бы, уникальных событиях. Я попытался точно определить, какую роль играет вероятность в таких анализах, и неявно подчеркнуть необходимость точной оценки вероятностей (а не просто составить их каким-то «неинформативным» способом).
whuber

1
С этой веткой связано так называемое противоречие «горячих рук». В уникальной газете под названием « Удивлен ошибками игрока и горячей руки»? Миллер и Санджуро приводят убедительные доказательства того, что в течение десятилетий в литературе было неверно отрицать существование «горячих рук». Историческая литература была основана на безусловной вероятности испытаний Берналли, в то время как условная вероятность конечной последовательности тех же испытаний подтверждает интуицию горячих рук. Аналогично для выборов можно рассматривать эти выборы как результат последовательности условно вероятностных результатов.
Майк Хантер

15

Выборы 2016 года действительно одноразовые. Но так же, как подбрасывание монеты или бросок кубика.

Когда кто-то утверждает, что знает, что у кандидата есть 75% шанс на победу, он не предсказывает результат. Они утверждают, что знают форму кубика.

Исход выборов не может сделать это недействительным. Но если модель, которую они используют для достижения 75%, проверена на многих выборах, то можно показать, что она имеет ограниченную прогностическую ценность. Или это может быть рождено как ценное.

Конечно, когда кандидатам известен ценный предиктор, они могут изменить свое поведение, и модель можно сделать неактуальной. Или это может быть взорвано все непропорционально. Просто посмотрите, что происходит в Айове.


7
+1 за «Они утверждают, что знают форму кубика».
WBT

@ WBT, нет, это совершенно неверное сообщение. 75% не имеют ничего общего с (физическими) вероятностями, которые (предполагается) управляют случайными событиями, такими как броски костей. Они означают, что они имеют 75% -ную степень уверенности
innisfree

1
@innisfree Метафора все еще полезна. Хотя по вашим комментариям к другим ответам я признаю, что вы не согласны (и вы можете опубликовать другой ответ), 75% - это тот, кто утверждает, что распределение вероятности исхода равно распределению четырехстороннего (пирамидального) штампа, на котором три с четырех сторон помечены "Хиллари". Метафора течет немного лучше, если учесть, что «форма» также включает метки.
WBT

6

Когда кто-то говорит, что «Хиллари имеет 75% шанс на выигрыш», это означает, что если вы предложите ему ставку, в которой один человек получает 25 долларов, если Хиллари выиграет, а другой человек получает 75 долларов, если Хиллари не выиграет, они считают, что справедливая ставка и нет особой причины отдавать предпочтение любой из сторон.

Эти проценты обычно поступают с рынков прогнозирования. Они суммируют всю доступную информацию и, как правило, превосходят аналитические методы прогнозирования большинства событий.

Прогнозные рынки дают людям возможность делать ставки на то, произойдет ли конкретное событие. Вознаграждения устанавливаются путем переговоров между людьми по обе стороны предложения. Как правило, люди, обладающие специальными знаниями о предложении, будут пытаться использовать эти знания для зарабатывания денег, что имеет побочный эффект от утечки этой информации.

Например, предположим, что существует рынок предсказаний того, доживет ли конкретная знаменитость до конца этого года. Публика знает возраст знаменитости, и любой может узнать основную вероятность того, что знаменитость умрет к концу года. Если бы это было все, что было известно, вы бы ожидали, что люди будут готовы делать ставки на одну или другую сторону этого предложения с примерно такой вероятностью.

Теперь предположим, что кто-то знал, что у знаменитости плохое здоровье, но скрывал это. Или даже сказать, что многие люди знали, что у семьи этой знаменитости была болезнь сердца, которая снизила бы их шансы на выживание. Люди с этой информацией будут готовы принять одну из сторон этого предложения, что приведет к корректировке ставки так же, как покупатели повышают цену акций, а продавцы понижают ее.

Другими словами, когда шансы слишком малы, люди, которые хотят получить прибыль, увеличивают их. И когда они слишком высоки, люди, которые хотят получить прибыль, отталкивают их. Цена ставки, в конечном счете, отражает коллективную мудрость каждого в отношении шансов, возникающих в результате предложения, точно так же, как все цены отражают коллективную мудрость в отношении стоимости и ценности вещей.


2
Жаль, что ни в одном другом ответе не упоминается пари, это, по сути, определение вероятности ... похоже, что все ее забыли.
Михаэль Ле Барбье Грюневальд,

2
@ MichaelGrünewald: Не совсем. Хотя возможно иметь шансы на азартные игры, которые отражают истинные вероятности (например, те, которые связаны с колесами рулетки или карточными играми), это не то, чем это является. Коэффициенты ставок для тех, кто победит на выборах, схожи с ценами на акции ... они основаны прежде всего на том, что чувствуют люди.
Роберт Харви

@RobertHarvey Суть в том, что вероятности выражают субъективное убеждение (слово « ожидание» должно напоминать нам об этом). Так что да, я могу строить модели, собирать информацию, используя самые умные способы, но, в конце концов, все, что я могу заявить: «Учитывая всю доступную информацию, к которой я могу получить доступ, я считаю, что эти коэффициенты справедливы». Нет такой вещи как «истинные вероятности» - исчисление вероятностей помогает нам вычислить наши убеждения, следовательно. Если, возможно, вы не хотите определить «истинные вероятности».
Михаэль Ле Барбье Грюневальд,

@RobertHarvey Вы можете утверждать, что все основано на том, как люди чувствуют. Если я приведу математический аргумент, это потому, что я чувствую, что это правильно. Люди могут решать, какие шансы принять ставку с предложением, любым способом, который они хотят, произвольным или строгим. При хорошем методе прогнозирования достаточно людей, обладающих информацией, что конечный результат передает мудрость толпы.
Дэвид Шварц

4

Ключевой вопрос заключается в том, как назначить вероятность уникальному событию. Ответ заключается в том, что вы разрабатываете модель, по которой она больше не является уникальной. Я думаю, что более простой пример - какова вероятность смерти президента при исполнении служебных обязанностей? Вы можете рассматривать президента как человека определенного возраста, человека определенного возраста и пола. И т.д. ... каждая модель дает вам разные прогнозы ... априори нет правильной модели ... это зависит от статистики, чтобы выбрать, какая модель является наиболее подходящей.


1
Несмотря на то, что я дал более длинный ответ над своей «правильной» галочкой, она мне тоже очень нравится. Перемещение вопроса к вероятности смерти президента при исполнении служебных обязанностей проясняет это. Спасибо ВСЕМ за все ваше внимательное рассмотрение!
питосалась

1
Существует структура (байесовская статистика) для присвоения вероятностей (степеней правдоподобия) любой гипотезе, включая результаты уникальных событий
innisfree

3

Учитывая, что опросы показывают очень жесткую гонку, 75% могут быть или не быть точными.

Вы спрашиваете, что это значит, а не как они рассчитали это. Подразумевается, что (если мы игнорируем кого-то еще, кроме Клинтона и ее одного главного противника), вам нужно будет поставить 3 доллара, чтобы получить возврат в 4 доллара, если она выиграет. Альтернативно, ставка в 1 доллар на другого бегуна вернула бы 4 доллара, если он выиграл.

Мой ответ проводит небольшое различие между реальным шансом на победу любого кандидата и тем, что ожидают люди (игроки или шансы). Я подозреваю, что когда вы видите такие цифры, например 75%, вы видите цифры производителей коэффициентов, когда вы видите 49-48%, вы видите результаты опросов.


2
И поскольку спрашивающий спрашивает о статистическом значении, имейте в виду, что, хотя это обычно не происходит на выборах, вы вполне можете предсказать «жесткий» результат, например, 52/48, но при этом иметь 75% уверенности в победителе, не обращаясь к в Вегас за их шансы. Например, в финальном забеге на 100 м среди мужчин предел победы составит менее 4%, но ваша статистическая модель может предсказать вероятного победителя. Это все о доверительном интервале на 52/48, который достаточно велик при прогнозировании выборов, что обычно не дает 75% шансов.
Стив Джессоп

1
Я думаю, что JoeTaxpayer - очень полезная, прагматическая (в философском смысле этого термина) перспектива. Это несколько неточное теоретическое решение. Именно так устанавливаются коэффициенты пари паримюэль. Другими характеристиками могут быть «мудрость толпы» или «рыночная цена». Это действительно решает вопрос, что я могу сделать с этой информацией (при условии, что я верю в это.)
DWin

1
Я не видел упоминаний о коллегии выборщиков. POTUS избирается через коллегию выборщиков. Таким образом, если Клинтон получит только 51% из 51% коллегии выборщиков, и ни один из остальных, то, набрав всего ~ 26% голосов избирателей, она победит. Таким образом, результаты опросов, которые обычно не учитывают коллегию выборщиков, иногда ошибочны.
MikeP

2
Опросы @MikeP не сообщают о шансах на победу, они сообщают, ну, в общем, результаты опросов. Модели, которые сообщают о шансах на победу, опираются на данные опросов в разных штатах и ​​учитывают избирательный колледж - по крайней мере, респектабельные.
Хоббс

2

Если они делают это правильно, что-то происходит примерно три четверти тех случаев, когда они говорят, что вероятность этого составляет 75%. (или, в более общем плане, одна и та же идея адаптирована ко всем процентным прогнозам)

Можно приписать большее значение, чем это, в зависимости от наших философских мнений и от того, насколько мы верим моделям, но эта прагматическая точка зрения является чем-то вроде наименьшего общего знаменателя - по крайней мере, статистические методы пытаются (хотя, возможно, в качестве стороны эффект, а не напрямую) делать прогнозы, подчиняясь этой прагматической точке зрения.


Нет, значение явно эпистемологическое / байесовское, степень убежденности 75%. Никто не представляет себе псевдо-экспериментов, в которых результат выборов является случайной величиной.
Innisfree

@Innisfree: Если в половине случаев у вас есть 75% -ная степень веры в что-то, что оказывается неправильным, вам нужно пересмотреть то, как вы измеряете свою веру! Не нужно вовлекать воображаемые эксперименты, просто объективная мера того, как часто ваша вера воплощалась в реальность в прошлом.
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.