На выборах, как мы можем с уверенностью сказать, что кандидат будет победителем?

Вчера на всеобщих выборах я жил, и телеканал начал объявлять победителей задолго до того, как были открыты все бюллетени.

Они оказались правильными во всех отношениях, и я не очень удивлен, что они сделали. Я знаю, что статистика абсолютно жизнеспособна. Тем не менее, мне любопытно. Предполагая, что:

мы открыли из бюллетеней; $i$ $j$
мы имеем кандидатов которых ток баллы ; $n$ $c_1, c_2, c_3, ... c_n$

Как мы можем рассчитать уверенность, с которой ведущий кандидат является победителем?

elections

— zneak
источник

Имейте в виду, что они обычно имеют доступ к обширным данным опросов при выходе и другим данным, которые они могут использовать для прогнозирования результата. Они только нуждаются в достаточном подтверждении от входящего счета, чтобы убедиться, что они не ошибаются из-за ошибки выборки. Безусловно, возникают сложности, и входящие подсчеты, как правило, являются предвзятой выборкой, но опросы на выходе имеют большое значение для оказания им помощи в решении некоторых из этих проблем.

— gung - Восстановить Монику

Если «с уверенностью» следует понимать буквально, статистика может (почти?) Никогда не отвечать на вопрос «с уверенностью». Но мы можем дать ответы с высокой степенью уверенности, что ответ будет правильным. (Другими словами, если мы получим наши данные и проведем анализ правильно, мы можем сказать что-то вроде: «Мой ответ будет неправильным только в x% случаев».)

— Эмиль Фридман,

Ответы:

Основная трудность на практике заключается не в статистической неопределенности в том, что случайная удача дала бы одному кандидату больше голосов. Основная трудность, на порядок или более, состоит в том, что открытые бюллетени почти никогда не являются беспристрастным образцом поданных голосов. Если вы проигнорируете этот эффект, вы получите известную ошибку «Dewey Defeats Truman», которая произошла с большой предвзятой выборкой.

На практике избиратели, которые предпочитают одного кандидата другому, распределяются неравномерно по регионам, независимо от того, работают ли они в течение дня или будут ли они направлены за границу и, следовательно, будут голосовать по открепительным удостоверениям. Это не маленькие различия.

Я думаю, что сейчас новостные организации делят население на группы и используют результаты, чтобы оценить, как проголосовала каждая группа (включая явку избирателей). Они могут основываться на моделях и предыдущих предположениях, основанных на предыдущих выборах, а не только на данных этих выборов. Они могут не учитывать странности, такие как бюллетени с бабочками на Палм-Бич.

— Дуглас Заре
источник

В Австралии примерно до 10-15 лет назад консервативные партии обычно начинали с сильных позиций в начале подсчета голосов, а прогрессивные партии возвращались поздно. Телеканалы, вероятно, знали, что происходит, но изменчивость, вероятно, способствовала большей драматичности. Все изменилось, когда аналитик по имени Энтони Грин начал использовать стенд за результатами, чтобы учесть тот факт, что небольшие киоски в сельской местности, как правило, делают свои подсчеты и результаты рано, и они склонны голосовать более консервативно. Энтони, как известно, правильно назвал результат выборов за несколько часов до того, как кто-либо еще использовал это.

— Богдановец

Результаты по стендам за предыдущие годы могут быть использованы для очень точной калибровки оценок общего результата.

— Питер Эллис

@DouglasZare Я думаю, что вы имеете в виду, что открытые бюллетени не случайная выборка.

— Майкл Р. Черник

@ Михаил Черник: В чем разница между неслучайной выборкой и смещенной выборкой? en.wikipedia.org/wiki/Sampling_bias, кажется, использует их как синонимы.

— Дуглас Заре

@DouglasZare Я вижу по вашей ссылке, что в Википедии используется предвзятый образец как синоним неслучайного. Я думаю, что это плохой выбор. Общее смещение относится к ожиданию того, что оценщик не будет равен истинному значению параметра. В контексте выборки неслучайная выборка не подразумевает смещения для конкретной оценки. Это может или не может привести к предвзятости.

— Майкл Р. Черник

При выборочной съемке необходима стандартная ошибка оценки пропорции. Это зависит больше от меня, чем от j. Также требуется, чтобы открытые бюллетени были выбраны случайным образом. Если p является истинной окончательной пропорцией для кандидата A, тогда дисперсия оценки

\frac{(1 - \frac{я}{J}) п (1 - п)}{я}

$\frac{(1-\frac{i}{j})p(1-p)}{i}$

$(1-\frac{i}{j})$ называется конечным поправочным коэффициентом населения. Для оценки этой дисперсии обычная оценка для p подставляется вместо p в формуле. Стандартная ошибка получается при взятии квадратного корня. При прогнозировании победителя опросчик может использовать оценку плюс или минус 3 стандартных ошибки. Если 0.5 не содержится в интервале, то кандидат A объявляется победителем, если 0.5 ниже нижнего предела, или его оппонент объявляется победителем, если 0.5 выше верхнего предела. Конечно, это только с очень высокой степенью уверенности говорит о том, кто станет победителем в случае, если 0,5 выходит за интервал. Уровень достоверности равен 0,99, если вы используете три стандартные ошибки (на основе нормального приближения к биному). Если 0,5 находится внутри интервала, никто не объявляется победителем, и опросщик ожидает накопления дополнительных данных.

При составлении прогноза участники опроса могут выбрать стратифицированную случайную выборку из накопленных голосов, чтобы избежать потенциального смещения, которое может произойти, если взглянуть на все подсчитанные бюллетени. Проблема с просмотром всех набранных голосов состоит в том, что некоторые избирательные участки полностью подсчитывают другие, и они не могут быть репрезентативными для населения.

Статья здесь дает хорошее освещение проблемы и многочисленные ссылки.

Было отмечено, что накопленные голоса могут обеспечить необъективные оценки пропорций, потому что либо участки, которые еще должны сообщить, являются участками, которые склоняются в пользу партии с кандидатом, который отстает, либо открепительные удостоверения, скорее всего, предпочтут кандидата, который отстает и эти голоса подсчитываются последними. Сложные социологи, такие как Харрис и Гэллап, не попадают в такие ловушки. Простой анализ построения доверительных интервалов на основе накопленных голосов, которые я обрисовал, является лишь одним из используемых факторов. Эти опросчики имеют в своем распоряжении гораздо больше информации. У них есть опросы, которые были проведены незадолго до выборов, и у них есть схемы голосования всех избирательных участков и заочных голосований, полученных на выборах в последние прошлые годы.

Так что, если есть явные предубеждения, которые могут привести к близким выборам в противоположном направлении, избиратели признают это и откладывают прогнозирование победителя.

В США бюллетени для заочного голосования приходят в основном из-за рубежа и студентов колледжей, которые находятся в школе вдали от дома. В то время как военные могут быть более консервативными и склонными голосовать за республиканцев, студенты колледжей, как правило, более либеральны и склонны голосовать за демократов. Все эти соображения приняты во внимание.

Тщательность и изощренность современных опросов являются причиной того, что с тех пор не произошло таких грубых ошибок, как опрос «Литературный дайджест» 1936 года или преждевременная уступка газеты «Чикаго» в выборах 1948 года в Дьюи.

— Майкл Р. Черник
источник

Хотя неявная аналогия с выборочной выборкой уместна, разве этот вопрос не добавляет усложняющих факторов? Во-первых, это возможность более двух кандидатов. Во-вторых, это проблема последовательного решения: в отличие от опросчика, который обычно определяет размер опроса и принимает одно решение на основе выборки, в каждый момент в сети появляется растущая выборка, и она должна решить, назначать ли выборы или ждать Дополнительная информация. Приложения для опросов, которые вы цитируете здесь, не подходят для этой динамичной ситуации. И почему сеть использует 3 SE? (Его репутация поставлена на карту.)

— whuber

@whuber Я согласен, что есть осложнения, которые, вероятно, не рассматриваются на практике. Для простоты я выбрал случай с двумя кандидатами, где большинство - это победа. Я думаю, что это та ситуация, которую имел в виду ФП. Победа с множеством голосов с тремя или более кандидатами будет означать, что «победивший кандидат имел более высокую долю, чем его оппоненты. Конечно, если вы проводите опрос более одного раза, следует учитывать последовательный характер выборки. Я не уверен, что это так

— Майкл Р. Черник

Я выбрал 3 SE, потому что я думаю, что избиратели хотят быть «очень уверены», что они правы, прежде чем объявить победителя. Следовательно, я думаю, что 3 будет использоваться над 2. Если вы хотите еще меньший риск ошибки, вы можете пойти выше 3. Я использовал формулу для стандартной ошибки, чтобы дать ОП представление о том, как уровень достоверности зависит от i и J по-простому. Усложнение ситуации усложнит результат, и зависимость I i и j будет не так отчетливо видна.

— Майкл Р. Черник

n

$n$

2

$2$

Поскольку я получаю несколько отрицательных голосов, кто-нибудь объяснит обоснование этого?

— Майкл Р. Черник