Все представленные ответы полезны, но они не очень статистически точны, так что я попробую. В то же время я собираюсь дать общий ответ, а не фокусироваться на этих выборах.
Первое, что нужно иметь в виду, когда мы пытаемся ответить на вопросы о реальных событиях, таких как победа Клинтона на выборах, в отличие от вымышленных математических задач, таких как вынимание шариков разных цветов из урны, заключается в том, что t единственный разумный способ ответить на вопрос и, следовательно, не единственный разумный ответ. Если кто-то просто говорит, что «Хиллари имеет 75% -ный шанс на победу», и не будет описывать свою модель выборов, данные, которые он использовал для своих оценок, результаты проверки своей модели, свои исходные предположения, Имеется в виду народное голосование или голосование на выборах и т. д., тогда они на самом деле не сказали вам, что они имеют в виду, а тем более предоставили достаточно информации, чтобы вы могли оценить, насколько их прогноз хорош. Кроме того, это не
Итак, какие процедуры может использовать статистик для оценки шансов Клинтона? В самом деле, как они могут решить проблему? На высоком уровне существуют различные понятия самой вероятности, два из наиболее важных из которых - частые и байесовские.
Согласно частому представлению, вероятность представляет собой предельную частоту события в течение многих независимых испытаний одного и того же эксперимента, как в законе больших чисел (сильных или слабых). Даже если какие-то конкретные выборы являются уникальным событием, их результат можно рассматривать как результат бесконечной совокупности исторических и гипотетических событий, которые могут включать все выборы президента США или все выборы в мире в 2016 году или что-то еще. Шанс 75% на победу в Клинтоне означает, что если - это последовательность результатов (0 или 1) независимых выборов, которые полностью эквивалентны этим выборам, если говорить о нашей модели, то выборочное среднее значение сходится по вероятности к 0,75 какX 1 , X 2 , … , X n nX1,X2,…X1,X2,…,Xnn уходит в бесконечность.
С точки зрения байесовской вероятности вероятность представляет собой степень правдоподобности или достоверности (которая может быть или не быть фактической верой, в зависимости от того, являетесь ли вы субъективистом байесовским). Шанс 75% на победу Клинтон означает, что она на 75% вероятна, что она победит. Кредиты, в свою очередь, могут выбираться свободно (на основе ранее существовавших убеждений модели или аналитика) в рамках ограничений основных законов вероятности (таких как теорема Байеса и тот факт, что вероятность совместного события не может превышать предельную вероятность любого из компонент событий). Один из способов обобщить эти законы состоит в том, что если вы делаете ставки на исход события, предлагая игрокам шансы в соответствии с вашими надеждами, то ни один игрок не может создать голландскую книгупротив вас, то есть набор ставок, который гарантирует, что вы потеряете деньги, независимо от того, как на самом деле происходит событие.
Независимо от того, принимаете ли вы частые или байесовские взгляды на вероятность, еще предстоит принять много решений о том, как анализировать данные и оценивать вероятность. Возможно, самый популярный метод основан на параметрических моделях регрессии, таких как линейная регрессия. В этой настройке аналитик выбирает параметрическое семейство распределений (то есть вероятностных мер ), которое индексируется вектором чисел, называемым параметрами. Каждый результат представляет собой независимую случайную переменную, взятую из этого распределения, преобразованную в соответствии с ковариатами, которые являются известными значениями (такими как уровень безработицы), которые аналитик хочет использовать для прогнозирования результата. Аналитик выбирает оценки значений параметров, используя данные и критерий соответствия модели, такой как наименьшие квадратыили максимальная вероятность . Используя эти оценки, модель может произвести прогнозирование результата (возможно, только одно значение, возможно , интервал или другой набор значений) для любого заданного значения ковариат. В частности, он может предсказать исход выборов. Помимо параметрических моделей, существуют непараметрические модели (то есть модели, определяемые семейством распределений, индексируемых бесконечно длинным вектором параметров), а также методы выбора прогнозируемых значений, в которых не используется модель, из которой вообще были сгенерированы данные. такие как классификаторы ближайшего соседа и случайные леса .
Составление прогнозов - это одно, но как узнать, хороши ли они? Ведь достаточно неточные прогнозы хуже бесполезных. Тестирование прогнозов является частью более широкой практики проверки модели, то есть количественной оценки того, насколько хороша данная модель для данной цели. Двумя популярными методами проверки прогнозов являются перекрестная проверка и разбиение данных на подмножества обучения и тестирования перед подборкой любых моделей. В той степени, в которой выборы, включенные в данные, являются репрезентативными для президентских выборов в США 2016 года, оценки точности прогнозирования, которые мы получаем из проверки прогнозов, сообщат нам, насколько точным будет наш прогноз относительно президентских выборов 2016 года в США.