Единственный способ узнать дисперсию населения - это измерить все население.
Тем не менее, измерение всей популяции часто невозможно; это требует ресурсов, включая деньги, инструменты, персонал и доступ. По этой причине мы выбираем популяции; это измерение подмножества населения. Процесс выборки должен быть разработан тщательно и с целью создания выборочной совокупности, которая является репрезентативной для совокупности; давая два ключевых соображения - размер выборки и метод выборки.
Пример игрушки: Вы хотите оценить разницу в весе для взрослого населения Швеции. В Швеции около 9,5 миллионов шведов, поэтому вряд ли вы сможете измерить их всех. Поэтому вам необходимо измерить выборочную совокупность, из которой вы можете оценить истинную дисперсию внутри популяции.
Вы отправляетесь на выборку шведского населения. Чтобы сделать это, вы идете и стоите в центре Стокгольма, и просто так стоите прямо у популярной вымышленной шведской сети бургеров Burger Kungen . На самом деле идет дождь и холодно (должно быть лето), поэтому вы стоите внутри ресторана. Здесь вы весите четыре человека.
Скорее всего, ваша выборка не очень хорошо отразится на населении Швеции. То, что у вас есть, это образец людей в Стокгольме, которые находятся в ресторане с гамбургерами. Это плохая методика выборки, потому что она может исказить результат, не давая достоверного представления о населении, которое вы пытаетесь оценить. Кроме того, у вас небольшой размер выборкиТаким образом, у вас есть высокий риск выбора четырех человек, которые находятся в крайней численности населения; или очень легкий или очень тяжелый. Если вы выбрали 1000 человек, у вас меньше шансов вызвать смещение выборки; гораздо меньше шансов выбрать 1000 необычных людей, чем четыре необычных. Больший размер выборки, по крайней мере, даст вам более точную оценку среднего значения и дисперсии веса среди клиентов Burger Kungen.
Гистограмма иллюстрирует влияние техники выборки: распределение серого может представлять население Швеции, которое не ест в Бургер Кунгене (в среднем 85 кг), а красное может представлять население потребителей Бургер Кунгена (в среднем 100 кг) и синие черточки могут быть четырьмя людьми, которых вы выбрали. Правильный метод выборки должен был бы справедливо взвешивать население, и в этом случае ~ 75% населения, то есть 75% измеряемых образцов, не должны быть клиентами Burger Kungen.
Это серьезная проблема с большим количеством опросов. Например, люди, которые могут отвечать на опросы удовлетворенности клиентов или опросы общественного мнения на выборах, как правило, непропорционально представлены людьми с экстремальными взглядами; люди с менее сильным мнением имеют тенденцию быть более сдержанными в выражении их.
Смысл проверки гипотезы ( не всегда ) состоит , например, в том, чтобы проверить, отличаются ли две популяции друг от друга. Например, клиенты Burger Kungen весят больше, чем шведы, которые не едят в Burger Kungen? Способность проверить это точно зависит от правильной техники отбора проб и достаточного размера выборки.
R код для проверки, чтобы все это произошло:
df1 = data.frame(rnorm(9500000, 85, 15), sample(c("Y","N","N","N"), replace = T))
colnames(df1) = c("weight","customer")
df1$weight = ifelse(df1$customer == "Y", df1$weight + rnorm(length(df1$weight[df1$customer =="Y"]), 15, 2), df1$weight)
subsample = sample(df1$weight[df1$customer=="Y"], size = 4)
png(paste0(path,"SwedenWeight.png"), res =1000, width = 4, height = 4, units = "in")
par(mar=c(5,6,2,2))
hist(df1$weight[df1$customer=="N"], xlab = "Kilograms", col = rgb(0,0,0,0.5), main ="")
hist(df1$weight[df1$customer=="Y"], add = T, col = rgb(1,0,0,0.5))
axis(side = 1, at = c(subsample), labels = c("","","",""), tck = -0.03, col = "blue")
axis(side = 1, at = c(0,150), labels = c("",""), tck = -0)
dev.off()
t.test(df1$weight~df1$customer)
Результаты:
> t.test(df1$weight~df1$customer)
Welch Two Sample t-test
data: df1$weight by df1$customer
t = -1327.7, df = 4042400, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-15.04688 -15.00252
sample estimates:
mean in group N mean in group Y
84.99555 100.02024