Как вы определяете размер выборки при опросе большого количества населения?

15

В Австралии в настоящее время проводятся выборы, и по понятным причинам СМИ ежедневно сообщают о новых результатах политического опроса. В стране с населением 22 миллиона человек какой процент населения должен быть выбран для получения статистически достоверного результата?

Возможно ли, что использование слишком большой выборки может повлиять на результаты, или статистическая достоверность монотонно увеличивается с размером выборки?

sample-size polling

— brotchie
источник

13

Размер выборки не сильно зависит от численности населения, что для многих нелогично.

Большинство избирательных компаний используют 400 или 1000 человек в своих выборках.

Для этого есть причина:

Размер выборки 400 даст вам доверительный интервал +/- 5% 19 раз из 20 (95%)

Размер выборки 1000 даст вам доверительный интервал +/- 3% 19 раз из 20 (95%)

Когда вы измеряете пропорцию около 50% в любом случае.

Этот калькулятор неплох:

http://www.raosoft.com/samplesize.html

— Нил Макгиган
источник

6

Но обратите внимание, что все это основано на выборке из однородной популяции. Если у вас гетерогенная популяция (например, разные пропорции для разных подгрупп, выборка редких частей популяций), тогда эта оценка дисперсии не столь надежна. Оценки, которые вы фактически рассчитываете здесь, (я думаю) для населения, которое представляет ваша выборка. Вопрос в том, действительно ли это население вас интересует?

— вероятностная

9

$\pi$ $\pi$ $N$ $N$ $p$

$p$ $N$ $\pi$

C I = [p - k * s d (p), p + k * s d (p)]

$CI = [ p - k * sd(p),~~ p + k * sd(p)]$

k

$k$

С точки зрения опроса, вы хотите, чтобы ширина вашего доверительного интервала была «низкой». Как правило, опросчики работают с пределом погрешности, который в основном составляет половину CI. Другими словами, . $\text{MoE} = k * sd(p)$

Вот как мы можем рассчитать : по определению, где если избиратель голосует за кандидата, и противном случае. $sd(p)$ $p = \sum X_i / N$ $X_i = 1$ $i$ $0$

$X_i$

V a r (P) = V (\sum \frac{X_{i}}{N}) = \frac{\sum V (X_{i})}{N^{2}} = \frac{N π (1 - π)}{N^{2}} = \frac{π (1 - π)}{N} .

$Var(P) = V\left( \sum\frac{X_i}{N}\right) = \frac{\sum V(X_i)}{N^2} = \frac{N \pi (1-\pi)}{N^2} = \frac{\pi (1-\pi)}{N}.$

Теперь, чтобы оценить погрешность, нам нужно знать

которого мы не знаем, очевидно. Но проверка числителя показывает, что «худшая» оценка для

в том смысле, что мы получаем «наибольшее» стандартное отклонение, это когда

s d (p) = \sqrt{\frac{π * (1 - π)}{N}}

$sd(p) = \sqrt{\frac{\pi * (1-\pi)}{N}}$

π

$\pi$

s d (p)

$sd(p)$

. Поэтому наихудшее стандартное отклонение:

π = 0.5

$\pi = 0.5$

s d (p) = \sqrt{0.5 * 0.5 / N} = 0.5 / \sqrt{N}

$sd(p) = \sqrt{0.5 * 0.5 / N } = 0.5 / \sqrt{N}$

N

$N$

N

$N$

Например, для доверительного интервала 95% (т.е. ) и $k= 1.96$ $N = 1000$ По мере того, как мы увеличиваемзатраты на опрос возрастают линейно, а выгоды уменьшаются экспоненциально. Это причина, почему опросчики обычно ограничивают

[p - 1.96 \frac{0.5}{\sqrt{1000}}, p + 1.96 \frac{0.5}{\sqrt{1000}}] = [p - 0.03, p + 0.03]

$\left[p - 1.96 \frac{0.5}{\sqrt{1000}},~~ p + 1.96 \frac{0.5}{\sqrt{1000}}\right] = [p - 0.03,~~ p + 0.03]$

N

$N$

N

$N$

π = 50 %

$\pi = 50\%$

— Сообщество
источник

2

В качестве грубого обобщения, каждый раз, когда вы выбираете долю населения в группе, вы получите другой ответ, чем если бы вы снова взяли то же число (но, возможно, разных людей).

Так что, если вы хотите узнать, сколько людей в Австралии> = 30 лет, и если истинная доля (Бог сказал нам) просто оказалась точно 0,4, и если мы спросим 100 человек, среднее число, которое мы можем ожидать скажем, они> = 30, это 100 x 0,4 = 40, а стандартное отклонение этого числа составляет +/- sqrt (100 * 0,4 * 0,6) = sqrt (24) ~ 4,9 или 4,9% (биномиальное распределение).

Поскольку этот квадратный корень находится там, когда размер выборки увеличивается в 100 раз, стандартное отклонение уменьшается в 10 раз. Таким образом, в целом, чтобы уменьшить неопределенность такого измерения в 10 раз, вам нужно собрать в 100 раз больше людей. Таким образом, если вы спросите 100 x 100 = 10000 человек, стандартное отклонение увеличится до 49 или, как процент, снизится до 0,49%.

— Майк Данлавей
источник