Расчет необходимого размера выборки, точность оценки отклонений?


18

Фон

У меня есть переменная с неизвестным распределением.

У меня есть 500 выборок, но я хотел бы продемонстрировать точность, с которой я могу вычислить дисперсию, например, доказать, что размер выборки 500 достаточен. Мне также интересно знать минимальный размер выборки, который потребуется для оценки дисперсии с точностью до .X%

Вопросов

Как я могу рассчитать

  1. точность моей оценки дисперсии с учетом размера выборки ? из ?n=500n=N
  2. Как я могу рассчитать минимальное количество выборок, необходимое для оценки дисперсии с точностью до ?X

пример

Рисунок 1 Оценка плотности параметра на основе 500 образцов.

введите описание изображения здесь

Рисунок 2 Вот график размера выборки на оси x в сравнении с оценками дисперсии на оси y, которые я рассчитал с использованием подвыборок из выборки 500. Идея состоит в том, что оценки будут сходиться к истинной дисперсии при увеличении n ,

Однако оценки не являются действительными независимыми, поскольку выборки, используемые для оценки дисперсии для , не являются независимыми друг от друга или от выборок, используемых для вычисления дисперсии приn [ 20 , 40 , 80 ]n[10,125,250,500]n[20,40,80]

введите описание изображения здесь


Просто знайте, что если компонент вашего неизвестного распределения является распределением Коши, дисперсия не определена.
Майк Андерсон

@ Майк Или действительно бесконечное число других распределений.
Glen_b

Ответы:


11

Для случайных величин несмещенная оценка для дисперсии (той, которая имеет знаменатель ) имеет дисперсию:s 2 n - 1X1,,Xns2n1

Var(s2)=σ4(2n1+κn)

где - избыточный эксцесс распределения (ссылка: Википедия ). Так что теперь вам нужно оценить и эксцесс вашего распределения. Вы можете использовать количество, иногда описываемое как (также из Википедии ):γ 2κγ2

γ2=μ4σ43

Я бы предположил, что если вы используете в качестве оценки для и в качестве оценки для , то вы получите разумную оценку для , хотя я не вижу гарантии что это беспристрастно. Посмотрите, совпадает ли это с разницей между подмножествами ваших 500 точек данных, и не беспокоится ли это больше :)σ γ 2 κ V a r ( s 2 )sσγ2κVar(s2)


у вас есть ссылка на учебник для объективной оценки дисперсии? Я не знаю, куда идти из Википедии для большего контекста.
Abe

У меня нет стандартного текста « Райс» , поэтому я не могу проверить номер страницы для вас, но я уверен, что он там. Википедия предполагает, что об этом также следует упомянуть в: Монтгомери, округ Колумбия, и Ранджере, округ Колумбия: прикладная статистика и вероятность для инженеров , стр. 201. John Wiley & Sons New York, 1994.
Эрик П.,

спасибо за вашу помощь с этим. Этот ответ был очень полезен, и он был информативным для количественной оценки дисперсионной неопределенности - я применял уравнение около 10 раз в последний день. вычислить легко с библиотекой: kappamomentslibrary(moments); k <- kurtosis(x); n <- length(x); var(x)^2*(2/(n-1) + k/n)
Abe

есть ли шанс, что вы нашли номер страницы из текста Райс? Я не могу найти это в Казелле и Бергере. Основная ссылка будет еще лучше, если вы это знаете. На страницу википедии не ссылаются.
Абэ

Хммм ... похоже, у Райс тоже нет формулы. Я буду следить за этим, но на данный момент у меня нет ссылки вообще.
Эрик П.

16

Изучать дисперсию сложно.

Во многих случаях требуется (возможно удивительно) большое количество выборок, чтобы хорошо оценить дисперсию. Ниже я покажу разработку для «канонического» случая нормального образца iid.

Предположим, что , являются независимыми случайными величинами. Мы ищем доверительный интервал для дисперсии, такой, что ширина интервала равна , т.е. ширина равна от точечной оценки. Например, если , то ширина CI равна половине значения точечной оценки, например, если , тогда CI будет что-то вроде , с шириной 5. Обратите внимание на асимметрию вокруг точечной оценки. ( - объективная оценка дисперсии.) я = 1 , ... , п N ( μ , сг 2 ) 100 ( 1 - & alpha ; ) % ρ s 2 100 ρ % ρ = 1 / 2 с 2 = 10 ( 8 ,Yii=1,,nN(μ,σ2)100(1α)%ρs2100ρ%ρ=1/2s2=10с 2(8,13)s2

«(Скорее,« а ») доверительный интервал для равен где - это квантиль распределения хи-квадрат с степенями свободы. (Это вытекает из того факта, что является основной величиной в гауссовой установке.)( n - 1 ) s 2s2х 2

(n1)s2χ(n1)2(1α/2)σ2(n1)s2χ(n1)2(α/2),
βn-1(n-1)s2/σ2χ(n1)2ββn1(n1)s2/σ2

Мы хотим минимизировать ширину, чтобы поэтому нам осталось решить для , чтобы n ( n - 1 ) ( 1

L(n)=(n1)s2χ(n1)2(α/2)(n1)s2χ(n1)2(1α/2)<ρs2,
n
(n1)(1χ(n1)2(α/2)1χ(n1)2(1α/2))<ρ.

Для случая доверительного интервала 99% мы получаем для и для . Этот последний случай дает интервал, который ( все еще! ) На 10% больше, чем точечная оценка дисперсии.n=65ρ=1n=5321ρ=0.1

Если выбранный вами уровень достоверности составляет менее 99%, то такой же интервал ширины будет получен для меньшего значения . Но может все еще быть больше, чем вы могли бы предположить.nn

Участок образца размером по сравнению с пропорциональной шириной шоу что - то , что выглядит асимптотически линейные на логарифмическом масштабе; другими словами, отношения, подобные степенному закону. Мы можем оценить силу этих степенных отношений (грубо) какnρ

α^log0.1log1log5321log65=log10log5231650.525,

что, к сожалению, решительно медленно!


Это своего рода «канонический» случай, чтобы дать вам представление о том, как проводить вычисления. Исходя из ваших графиков, ваши данные не выглядят особенно нормальными; в частности, есть то, что кажется заметным перекосом.

Но это должно дать вам примерное представление о том, чего ожидать. Обратите внимание, что для ответа на ваш второй вопрос, приведенный выше, необходимо сначала установить некоторый уровень доверия, который я установил на уровне 99% в приведенной выше разработке для демонстрационных целей.


это очень хороший ответ на мой вопрос. Однако, хотя я следую расчетам, которые вы делаете для , мне не совсем ясно, является ли единица для процентом в решении для ; Означает ли это, что " меньше " или " меньше от ?"n|ρrhon=65ρ<1ρ1×s2ρ1%s2
Абэ

@Abe, обновляется и, надеюсь, уточняется в процессе. В предыдущей версии была одна особенно плохая опечатка. Прости за это.
кардинал

очень хороший ответ, но я выбрал один из @Erik, потому что он больше подходит для моей проблемы (так как мой параметр обычно не распространяется).
Абэ

@Abe: не проблема. Вот для чего существует галочка. Мой ответ был (должен) быть иллюстративным, больше всего на свете. Из того, что я могу сказать, он все еще кажется единственным, который отвечает на оба ваших вопроса, и будет (асимптотически) правильным даже в сценарии, который обрисовал Эрик. (+1 к нему более года назад.) :)
кардинал

Вы правы, и я рад, что теперь я вернулся к вашему ответу. В итоге я использовал общий расчет @Erik, но теперь я вижу значение в общем решении. Кроме того, представление CI, а не SD, решит проблему, так как моя аудитория будет запутана, увидев статистику в форме , не понимая, что такое дисперсия. Таким образом, должен сделать это более ясным и соответствовать другим статистическим сводкам. И будет полезно показать асимметрию. s(ss)s[lcl,ucl]
Абэ

1

Я бы сфокусировался на SD, а не на дисперсии, так как она находится в масштабе, который легче интерпретировать.

Люди иногда смотрят на доверительные интервалы для SD или отклонений, но в основном внимание уделяется средствам.

Результаты, которые вы даете для распределения можно использовать для получения доверительного интервала для (и так же ); большинство вводных текстов по математике и статистике содержат подробности в том же разделе, в котором упоминалось упоминание . Я бы просто взял 2,5% с каждого хвоста.s2/σ2σ2σσ2


(Этот ответ пришел сюда после слияния дублирующего вопроса, сформулированного несколько по-другому.)
whuber

1

Следующее решение было дано Гринвудом и Сандомиром в статье JASA 1950 года.

Пусть - случайная выборка из распределения N ( μ , σ 2 ) . Сделайте выводы о σ, используя в качестве ( смещенной ) оценки стандартное отклонение выборки S = X1,,XnN(μ,σ2)σ

S=i=1n(XiX¯)2n1,
Sσ0<u<1
Pr{S<(1u)σ}=aandPr{S>(1+u)σ}=b,
γ=1ab

Pr{(n1)S2σ2<(n1)(1u)2}=a
Pr{(n1)S2σ2>(n1)(1+u)2}=b.
(n1)S2/σ2χn12

γ=Fχ(n1)2((n1)(1+u)2)Fχ(n1)2((n1)(1u)2),

nγu

R код.

gamma <- 0.95
u <- 0.1
g <- function(n) pchisq((n-1)*(1+u)^2, df = n-1) - pchisq((n-1)*(1-u)^2, df = n-1) - gamma
cat("Sample size n = ", ceiling(uniroot(g, interval = c(2, 10^6))$root), "\n")

u=10%γ=95%

Sample size n = 193
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.