Есть математическая теорема, которая называется «закон больших чисел». Представьте, что вы хотите определить вероятность появления монеты в голове. «Население» подбрасываний монет бесконечно - намного больше, чем 300 000 000 человек в Соединенных Штатах. Но согласно закону больших чисел, чем больше монет вы подбрасываете, тем точнее будет ваша оценка.
Идеальный опрос: В идеальном опросе, избиратели будут случайным образом выбирать имена из переписи населения США, узнавать, где живут эти люди, а затем идти и стучать в их двери. Если человек говорит, что планирует голосовать, опросчик спрашивает, за кого он голосует, и записывает свой ответ. Опрос, подобный этому, математически гарантированно работает, и количество ошибок в ваших измерениях для любого заданного уровня достоверности может быть легко вычислено .
Вот что означает ошибка: Предположим, что, исходя из вашего опроса, вы получили 52-процентную вероятность того, что Кандидат Awesome McPerfect победит, с 3% -ной ошибкой с 98% -ной достоверностью. Это означает, что вы можете быть на 98% уверены, что истинная доля избирателей, поддерживающих кандидата Awesome McPerfect, составляет от 49% до 55%.
Замечание об ошибке и достоверности Для данного размера выборки, чем увереннее вы будете, тем больше будет ваша ошибка. Подумайте об этом - вы на 100% уверены, что истинная доля, поддерживающая кандидатуру Awesome, составляет от 0% до 100% (максимально возможная ошибка), и вы на 0% уверены, что истинная доля, поддерживающая кандидатуру Awesome, составляет точно 52,0932840985028390984308% (ноль ошибок). Большее доверие означает больше ошибок, меньшее доверие означает меньше ошибок. Однако связь между доверием и ошибкой НЕ является линейной! (См .: https://en.wikipedia.org/wiki/Confidence_interval )
Опросы в реальном мире: потому что вертолетные опросы во все части страны обходятся дорого, чтобы постучать в двери случайных людей (хотя я бы хотел, чтобы это произошло; если вы миллиардер и вы это видите, пожалуйста, рассмотрите возможность финансирования), опросы в реальном мире более сложны. Давайте посмотрим на одну из наиболее распространенных стратегий - вызвать случайных избирателей и спросить их, за кого они будут голосовать. Это хорошая стратегия, но в ней есть некоторые общеизвестные недостатки:
- Люди часто предпочитают не отвечать на телефонные звонки и отвечать на опросов (например, меня)
- У некоторых демографических групп больше шансов на стационарный телефон (например, у пожилых избирателей)
- Некоторые демографы более склонны отвечать на опросов (например, пожилых избирателей)
Поскольку разные демографические группы голосуют по-разному, избиратели должны сделать все возможное, чтобы контролировать различия в своих исходных данных (в зависимости от того, кто решил ответить на телефонные звонки) и результаты реальных выборов. Например, если 10% людей, которые подняли трубку, были латиноамериканцами, но 30% избирателей на последних выборах были латиноамериканцами, то они собираются в три раза увеличить вес латиноамериканских избирателей в своем опросе. Если 50% людей, ответивших на звонок, были старше 60 лет, но только 30% проголосовавших на последних выборах были старше 60 лет, они будут придавать меньший вес старшим избирателям, которые ответили. Это не идеально, но это может привести к некоторым впечатляющим предсказаниям (Нейт Сильвер правильно предсказал результаты в каждом из 50 штатов на выборах 2012 года, используя статистику,
Мудрое предостережение: опрашивающие делают лучшие прогнозы, какие только могут, исходя из того, как все сложилось в прошлом. Вообще говоря , сейчас все происходит примерно так же, как и в прошлом, или, по крайней мере, изменения происходят достаточно медленно, чтобы недавнее прошлое (на котором они больше всего фокусировались) напоминало настоящее. Однако иногда происходят быстрые изменения в электорате, и все идет не так. Возможно, избиратели Трампа немного реже, чем ваш средний избиратель, ответят на звонок, и взвешивание по демографии не учитывает этого. Или может быть молодые люди (которые в подавляющем большинстве поддерживают Хиллари) еще большевряд ли ответит на звонок, как предсказывают модели, а ответившие на звонок, скорее всего, будут республиканцами. Или, может быть, верно противоположное тому и другому - мы не знаем. такие вещи являются скрытыми переменными, которые не отображаются в общедоступных демографических данных.
Мы бы знали, послали ли мы опросчиков, чтобы постучать в случайные двери (хм, мнимые миллиардеры читают это), с тех пор нам не пришлось бы взвешивать вещи, основываясь на демографии, но до тех пор пальцы скрещивались.