Подходит ли начальная загрузка для этих непрерывных данных?


11

Я полный новичок :)

Я делаю исследование с размером выборки 10 000 человек из примерно 745 000 человек. Каждый образец представляет «процентное сходство». Подавляющее большинство выборок составляет около 97% -98%, но некоторые составляют от 60% до 90%, то есть распределение сильно искажено. Около 0,6% результатов составляют 0%, но они будут обрабатываться отдельно от образца.

Среднее значение для всех 10 000 выборок составляет 97,7%, а в Excel значение StdDev составляет 3,20. Я понимаю, что StdDev здесь на самом деле не применим, потому что результаты обычно не распределяются (и потому что +3.20 поставит вас выше 100%!).

Мои вопросы:

  1. Подходит ли начальная загрузка (новая концепция для меня)?
  2. Я правильно загружаюсь :)
  3. Каков достаточный размер выборки?

То, что я делаю, - это пересчет (с заменой) моих 10000 результатов и вычисление нового среднего значения. Я делаю это несколько тысяч раз и сохраняю каждое среднее значение в массиве. Затем я вычисляю «среднее значение», и это мой статистический результат. Чтобы определить 99% CI, я выбираю 0,5% -ое значение и 99,5% -ое значение, и это дает очень узкий диапазон: 97,4% - 98,0%. Это действительный результат или я делаю что-то не так?

Что касается размера выборки, я выбираю только около 1,3% населения - я понятия не имею, достаточно ли этого. Как я узнаю, является ли моя выборка представительной для населения? В идеале, я хотел бы быть на 99% уверенным в среднем значении +/- 0,50% (т.е. 97,2% - 98,2%).

Заранее спасибо за любые советы!

Ответы:


19

Стандартное отклонение здесь применимо, как и везде: оно дает полезную информацию о разбросе данных. В частности, sd, деленное на квадратный корень из размера выборки, является одной стандартной ошибкой: она оценивает дисперсию распределения выборки среднего. Давайте посчитаем:

3.2%/10000=0.032%=0.00032.

Это крошечный - намного меньше, чем точность вы ищете.±0.50%

Хотя данные не распределены нормально, среднее значение выборки очень близко к нормальному распределению, потому что размер выборки очень большой. Вот, например, гистограмма выборки с теми же характеристиками, что и у вас, а справа - гистограмма средних тысяч дополнительных выборок из той же популяции.

фигура 1

Это выглядит очень близко к нормальному, не так ли?

Таким образом, хотя кажется, что вы правильно загружаете, самозагрузка не нужна: симметричный доверительный интервал для среднего значения получается, как обычно, умножением стандартной ошибки на соответствующий процентиль стандартного нормального распределения (до остроумие, ) и перемещая это расстояние в любую сторону от среднего значения. В вашем случае , поэтому доверительный интервал100α%Z1α/200Z1α/200=2.575899%

(0.9772.5758(0.032)/10000, 0.977+2.5758(0.032)/10000)=(97.62%,97.78%).

Достаточный размер выборки можно найти, перевернув это соотношение, чтобы определить размер выборки. Здесь это говорит нам, что вам нужен размер выборки около

(3.2%/(0.5%/Z1α/200))2272.

Это достаточно мало, чтобы мы могли еще раз проверить вывод о том, что выборочное распределение среднего значения является нормальным. Я взял выборку из из своего населения и загрузил ее среднее значение (для итераций):2729999

фигура 2

Конечно же, это выглядит нормально. Фактически, загруженный доверительный интервал практически идентичен доверительному интервалу Нормальной теории .(97.16%,98.21%)(97.19%,98.24%)

Как показывают эти примеры, фактический размер выборки определяет точность оценок , а не доли численности населения. (Экстремальный, но интуитивно понятный пример - то, что одна капля морской воды может дать точную оценку концентрации соли в океане, даже если эта капля является такой крошечной долей всей морской воды.) Для указанных целей получение образца из (что требует более чем в раз больше работы, чем выборка из ), является излишним.1000036272


RКод для выполнения этих анализов и построения графиков приведен ниже. Это выборка из популяции, имеющей бета-распределение со средним значением и SD .0.9770.032

set.seed(17)
#
# Study a sample of 10,000.
#
Sample <- rbeta(10^4, 20.4626, 0.4817)
hist(Sample)
hist(replicate(10^3, mean(rbeta(10^4, 20.4626, 0.4817))),xlab="%",main="1000 Sample Means")
#
# Analyze a sample designed to achieve a CI of width 1%.
#
(n.sample <- ceiling((0.032 / (0.005 / qnorm(1-0.005)))^2))
Sample <- rbeta(n.sample, 20.4626, 0.4817)
cat(round(mean(Sample), 3), round(sd(Sample), 3)) # Sample statistics
se.mean <- sd(Sample) / sqrt(length(Sample))      # Standard error of the mean
cat("CL: ", round(mean(Sample) + qnorm(0.005)*c(1,-1)*se.mean, 5)) # Normal CI
#
# Compare the bootstrapped CI of this sample.
#
Bootstrapped.means <- replicate(9999, mean(sample(Sample, length(Sample), replace=TRUE)))
hist(Bootstrapped.means)
cat("Bootstrap CL:", round(quantile(Bootstrapped.means, c(0.005, 1-0.005)), 5))

2
Я знаю, что этот пост довольно старый, но он очень полезен. Спасибо, что поделились своими знаниями.
RDizzl3
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.