Можно ли использовать Bootstrap Resampling для расчета доверительного интервала для дисперсии набора данных?
Да, как и во многих других статистических данных.
Я знаю, что если вы повторно отбираете данные из набора данных и каждый раз вычисляете среднее значение, эти средства будут следовать нормальному распределению (по CLT).
Это не всегда тот случай, когда вы загружаете среднее значение, то средство начальной загрузки будет следовать нормальному распределению, даже для распределений, для которых применяется CLT.
n = 100
Это не нормально.
Исходный образец состоит из девяноста семи значений «0» и «1», «2» и «100».
Вот код (R), который я запустил, чтобы сгенерировать график выше:
x <- c(rep(0,97),1,2,100)
y <- replicate(10000,mean(sample(x,replace=TRUE)))
plot(table(y),type="h")
Проблема в том, что в этом случае размер выборки (100) слишком мал для CLT, чтобы применить его с такой формой распределения; не имеет значения, сколько раз мы повторим это.
Однако, если исходный размер выборки намного больше, распределение выборки при повторной выборке означает, что что-то вроде этого будет более нормальным (хотя всегда дискретным).
Вот ecdfs при повторной выборке вышеупомянутых данных (черный) и для значений в тех же пропорциях, но с десятикратным числом значений (красный; то есть n = 1000):
Как мы видим, функция распределения при повторной дискретизации большой выборки выглядит гораздо более нормальной.
если бы мне пришлось многократно повторять выборку из набора данных и каждый раз вычислять дисперсию, следовало ли бы это отклонение соответствовать определенному распределению
Нет, по той же причине это не обязательно верно для среднего.
Однако CLT также применяется к дисперсии *; просто вы не можете утверждать, что CLT применяется для повторной выборки при начальной загрузке, просто взяв много повторных выборок. Если исходный размер выборки достаточно велик, это может (при правильных условиях) привести к тому, что распределение средних значений (и более высокие моменты, если они существуют) будут относительно близки к нормальному распределению (относительно его распределения в меньших выборках при наименее).
s2N= 1NΣNя = 1( хя-х¯)2Yя= ( хя- х¯)2s2N= у¯Ys2Ns2n - 1s2Ns2Ns2n - 1