Как мы можем судить о точности предсказаний Нейта Сильвера?


19

Во-первых, он дает вероятность результатов. Так, например, его прогнозы на выборах в США в настоящее время составляют 82% Клинтона против 18% Трампа.

Теперь, даже если Трамп выиграет, как я узнаю, что выиграть должен был не только 18% времени?

Другая проблема заключается в том, что его вероятности меняются со временем. Итак, 31 июля между Трампом и Клинтоном было почти 50 на 50.

Мой вопрос заключается в том, что, учитывая, что у него каждый день разная вероятность для одного и того же будущего события с одним и тем же исходом, как я могу измерить, насколько точным он был для каждого дня, когда он сделал прогноз, основываясь на информации, которая была доступна до этого дня?


1
Я подозреваю, что мы не можем. Для такой оценки нужен золотой стандарт, и лучшее, что у нас есть, - это только наблюдения предыдущих выборов, которые трудно сравнивать (поскольку все выборы будут включать альтернативные методы выборки и поведение избирателей). Но я не эксперт в избирательных опросах, поэтому я оставляю это как комментарий, а не как ответ :)
Tal Galili

2
@TalGalili: мы можем сказать хоть что-то, используя правила оценки - так же, как, например, мы можем сказать что-то о ненаблюдаемых параметрах, которые мы оцениваем в регрессиях.
С. Коласса - Восстановить Монику

Это, вероятно, «правило подсчета очков», но для n событий умножьте его вероятность на происходящие события и возьмите n-ный корень, чтобы получить среднюю степень прогнозирования (мы предполагаем, что он никогда не делает 0% прогнозов). Вы можете рассматривать каждую ежедневную вероятность как отдельный прогноз.
Баррикартер

Почему вероятности не могут меняться со временем? В спортивных соревнованиях не меняются шансы, когда забит гол или домашний забег?
Родриго де Азеведо

8
Модель серебра дает гораздо больше, чем просто оценку вероятности - она ​​дает оценку победного запаса, которая получается из вероятностей выигрыша и маржинального выигрыша для каждого из 50 штатов. Таким образом, он дает точечную оценку и запас погрешности для 50 различных измерений (хотя и с некоторой - возможно, высокой - степенью корреляции между ними), а не просто предсказывает один двоичный результат.
Мика

Ответы:


14

Вероятностные прогнозы (или, как их еще называют, прогнозы плотности) можно оценивать с использованием оценки , то есть функций, которые отображают прогноз плотности и наблюдаемый результат в так называемую оценку, которая минимизируется в ожидании, если прогноз плотности на самом деле это истинная плотность, которая должна быть предсказана. Правильные правила оценки - это правила оценки, которые сводятся к минимуму в ожидании только истинной плотности в будущем.

Существует довольно много таких правильных правил оценки, начиная с Brier (1950, Monthly Weather Review ) в контексте вероятностного прогнозирования погоды. Czado et al. (2009, Biometrics ) дают более свежий обзор для дискретного случая. Gneiting & Katzfuss (2014, Ежегодный обзор статистики и ее применения ) дают обзор вероятностного прогнозирования в целом - в частности, Gneiting очень активно продвигал причину правильных правил подсчета очков.

Тем не менее, правила подсчета немного трудно интерпретировать, и они действительно только помогают сравнивать множественные вероятностные прогнозы - лучше тот, который имеет более низкий балл. До изменения выборки, то есть всегда лучше иметь много прогнозов для оценки, чьи оценки мы бы усреднили.

Как включить «обновление» прогнозов Серебра или других - хороший вопрос. Мы можем использовать правила оценки для сравнения «снимков» различных прогнозов в определенный момент времени или даже взглянуть на вероятностные прогнозы Сильвер с течением времени и рассчитать оценки в каждый момент времени. Можно надеяться, что оценка становится все ниже и ниже (то есть прогнозы плотности становятся все лучше и лучше), чем ближе фактический результат.


5
Другой способ сказать это: отдельная прогнозируемая вероятность уникального события не может быть оценена в одиночку, но прогнозисты могут быть оценены (с помощью функций оценки).
kjetil b halvorsen

1
Для «минимизируется в ожидании», я думаю, что ключевой вопрос - ожидание по какому ансамблю? Мы принимаем все прогнозы Нейта Сильвера? Только те, кто закончил президентские выборы? Я не знаю, есть ли здесь один ответ. Для сравнения разных прогнозистов могут быть разумными прогнозы относительно любого общего набора событий.
GeoMatt22

@ GeoMatt22 - у него достаточно схожая методология для других выборов, поэтому может быть уместным объединить все прогнозы выборов
DVK

11

В книге Нейта Сильвера « Сигнал и шум» он пишет следующее, что может дать некоторое представление о вашем вопросе:

Один из самых важных тестов прогноза - я бы сказал, что он самый важный - называется калибровкой. Из всех случаев, когда вы говорили, что вероятность дождя составляет 40%, как часто на самом деле случаются дожди? Если в долгосрочной перспективе дождь действительно шел 40% времени, это означает, что ваши прогнозы были хорошо откалиброваны. Если вместо этого шел дождь только в 20% случаев или в 60% случаев, то это не так.

Так что это поднимает несколько пунктов. Прежде всего, как вы правильно заметили, вы действительно не можете делать никаких выводов о качестве единственного прогноза по результату события, которое вы прогнозируете. Лучшее, что вы можете сделать, это посмотреть, как ваша модель работает в течение многих предсказаний.

Еще одна важная вещь, о которой стоит подумать, это то, что прогнозы, которые дает Нейт Сильвер, являются не самим событием, а распределением вероятности события. Так что в случае президентской гонки он оценивает распределение вероятностей победы Клинтона, Трампа или Джонсона в гонке. Таким образом, в этом случае он оценивает полиномиальное распределение.

Но он на самом деле предсказывает гонку на более детальном уровне. Его прогнозы оценивают распределение вероятностей в процентах голосов, которые каждый кандидат получит в каждом штате. Таким образом, если мы рассмотрим 3 кандидата, это может характеризоваться случайным вектором длины 51 * 3 и принятием значений в интервале [0, 1], с учетом ограничения, что пропорции суммируют 1 для пропорций внутри состояния. Число 51 объясняется тем, что в других 50 штатах + округ Колумбия (и на самом деле я думаю, что на самом деле это несколько больше, потому что некоторые штаты могут разделить свои голоса в коллегиях выборщиков), а число 3 связано с количеством кандидатов.

Теперь у вас нет большого количества данных, чтобы оценить его прогнозы - он предоставил прогнозы только для трех последних выборов, о которых я знаю (было ли больше?). Поэтому я не думаю, что есть какой-то способ честно оценить его модель, если вы на самом деле не имели модель в руках и не могли оценить ее, используя смоделированные данные. Но есть еще несколько интересных вещей, на которые вы могли бы взглянуть. Например, я думаю, что было бы интересно посмотреть, насколько точно он предсказал пропорции голосования по штатам в конкретный момент времени, например, через неделю после выборов. Если вы повторите это для нескольких временных моментов, например, на неделю, на месяц, на 6 и на год, то вы могли бы представить довольно интересную экспозицию для его предсказаний. Одно важное предостережение: результаты сильно коррелируют между штатами в рамках выборов, поэтому вы не можете сказать, что у вас есть 51 штат * 3 независимых прогноза выборов (т. е. если модель недооценивает эффективность кандидатов в одном штате, она будет также недооценивать и в других штатах) , Но, может быть, я все равно подумаю об этом так, чтобы у вас было достаточно данных, чтобы сделать что-то значимое.


4

Для любого единственного предсказания, которое вы не можете, больше, чем мы можем сказать, является ли утверждение «эта монета имеет 60% вероятности выпадения головы» близким к правильному с одного броска.

Тем не менее, вы можете оценить его методологию по многим прогнозам - для определенных выборов он делает много прогнозов, не только о президентской гонке в целом, но и о многих прогнозах, касающихся голосования за президента и многих других рас (палата представителей, сенат, губернаторский состав). и так далее), и он также использует широко похожие методологии с течением времени.

Есть много способов сделать эту оценку (некоторые довольно сложные), но мы можем взглянуть на некоторые относительно простые способы получить некоторое представление об этом. Например, вы можете разбить прогнозы вероятности выигрыша на полосы, например (50-55%, 55-65% и т. Д.), А затем посмотреть, какая доля прогнозов в этой полосе подошла; доля 50-55% предсказаний, которые сработали, должна быть где-то между 50-55% в зависимости от того, где было среднее значение (плюс запас для случайного отклонения *).

Таким образом, с помощью этого подхода (или различных других подходов) вы можете видеть, было ли распределение результатов в соответствии с прогнозами на выборах или на нескольких выборах (если я правильно помню, я думаю, что его прогнозы были чаще правильными, чем следовало бы) , что говорит о том, что его стандартные ошибки в среднем были немного завышены).

* мы должны быть осторожны с тем, как это оценить, хотя прогнозы не являются независимыми.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.