В книге Нейта Сильвера « Сигнал и шум» он пишет следующее, что может дать некоторое представление о вашем вопросе:
Один из самых важных тестов прогноза - я бы сказал, что он самый важный - называется калибровкой. Из всех случаев, когда вы говорили, что вероятность дождя составляет 40%, как часто на самом деле случаются дожди? Если в долгосрочной перспективе дождь действительно шел 40% времени, это означает, что ваши прогнозы были хорошо откалиброваны. Если вместо этого шел дождь только в 20% случаев или в 60% случаев, то это не так.
Так что это поднимает несколько пунктов. Прежде всего, как вы правильно заметили, вы действительно не можете делать никаких выводов о качестве единственного прогноза по результату события, которое вы прогнозируете. Лучшее, что вы можете сделать, это посмотреть, как ваша модель работает в течение многих предсказаний.
Еще одна важная вещь, о которой стоит подумать, это то, что прогнозы, которые дает Нейт Сильвер, являются не самим событием, а распределением вероятности события. Так что в случае президентской гонки он оценивает распределение вероятностей победы Клинтона, Трампа или Джонсона в гонке. Таким образом, в этом случае он оценивает полиномиальное распределение.
Но он на самом деле предсказывает гонку на более детальном уровне. Его прогнозы оценивают распределение вероятностей в процентах голосов, которые каждый кандидат получит в каждом штате. Таким образом, если мы рассмотрим 3 кандидата, это может характеризоваться случайным вектором длины 51 * 3 и принятием значений в интервале [0, 1], с учетом ограничения, что пропорции суммируют 1 для пропорций внутри состояния. Число 51 объясняется тем, что в других 50 штатах + округ Колумбия (и на самом деле я думаю, что на самом деле это несколько больше, потому что некоторые штаты могут разделить свои голоса в коллегиях выборщиков), а число 3 связано с количеством кандидатов.
Теперь у вас нет большого количества данных, чтобы оценить его прогнозы - он предоставил прогнозы только для трех последних выборов, о которых я знаю (было ли больше?). Поэтому я не думаю, что есть какой-то способ честно оценить его модель, если вы на самом деле не имели модель в руках и не могли оценить ее, используя смоделированные данные. Но есть еще несколько интересных вещей, на которые вы могли бы взглянуть. Например, я думаю, что было бы интересно посмотреть, насколько точно он предсказал пропорции голосования по штатам в конкретный момент времени, например, через неделю после выборов. Если вы повторите это для нескольких временных моментов, например, на неделю, на месяц, на 6 и на год, то вы могли бы представить довольно интересную экспозицию для его предсказаний. Одно важное предостережение: результаты сильно коррелируют между штатами в рамках выборов, поэтому вы не можете сказать, что у вас есть 51 штат * 3 независимых прогноза выборов (т. е. если модель недооценивает эффективность кандидатов в одном штате, она будет также недооценивать и в других штатах) , Но, может быть, я все равно подумаю об этом так, чтобы у вас было достаточно данных, чтобы сделать что-то значимое.