Можно ли рассчитать стандартное отклонение для среднего гармонического?


12

Можно ли рассчитать стандартное отклонение для среднего гармонического? Я понимаю, что стандартное отклонение может быть рассчитано для среднего арифметического, но если у вас есть среднее гармоническое, как вы рассчитываете стандартное отклонение или CV?

Ответы:


13

Среднее гармоническое случайных величин определяется какHX1,...,Xn

H=11ni=1n1Xi

Принимая моменты фракций грязный бизнес, так что вместо этого я предпочел бы работать с . Теперь1/H

1H=1ni=1n1Xi
.

Используя центральную предельную теорему, мы сразу получаем, что

n(H1EX11)N(0,VarX11)

если конечно и iid, так как мы просто работаем со средним арифметическим переменных .VarX11<XiYi=Xi1

Теперь, используя дельта-метод для функции мы получаем, чтоg(x)=x1

n(H(EX11)1)N(0,VarX11(EX11)4)

Этот результат является асимптотическим, но для простых приложений этого может быть достаточно.

Обновление Как справедливо отмечает @whuber, простые приложения - это неправильное название. Центральная предельная теорема справедлива только в том случае, если существует , что является довольно ограничительным предположением.VarX11

Обновление 2 Если у вас есть образец, то, чтобы рассчитать стандартное отклонение, просто включите моменты образца в формулу. Таким образом, для выборки оценка среднего гармоническогоX1,...,Xn

H^=11ni=1n1Xi

моменты выборки и соответственно:EX11Var(X11)

μ^R=1ni=1n1Xiσ^R2=1ni=1n(1XiμR)2

здесь означает взаимность.R

Наконец приближенная формула для стандартного отклонения являетсяH^

sd(H^)=σ^R2nμ^R4

Я провел несколько симуляций Монте-Карло для случайных величин, равномерно распределенных в интервале . Вот код:[2,3]

hm <- function(x)1/mean(1/x)
sdhm <- function(x)sqrt((mean(1/x))^(-4)*var(1/x)/length(x))

n<-1000

nn <- c(10,30,50,100,500,1000,5000,10000)

N<-1000

mc<-foreach(n=nn,.combine=rbind) %do% {

    rr <- matrix(runif(n*N,min=2,max=3),nrow=N)

    c(n,mean(apply(rr,1,sdhm)),sd(apply(rr,1,sdhm)),sd(apply(rr,1,hm)))

}
colnames(mc) <- c("n","DeltaSD","sdDeltaSD","trueSD")

> mc
             n     DeltaSD    sdDeltaSD      trueSD
result.1    10 0.089879211 1.528423e-02 0.091677622
result.2    30 0.052870477 4.629262e-03 0.051738941
result.3    50 0.040915607 2.705137e-03 0.040257673
result.4   100 0.029017031 1.407511e-03 0.028284458
result.5   500 0.012959582 2.750145e-04 0.013200580
result.6  1000 0.009139193 1.357630e-04 0.009115592
result.7  5000 0.004094048 2.685633e-05 0.004070593
result.8 10000 0.002894254 1.339128e-05 0.002964259

Я смоделировал Nобразцы nразмера образца. Для каждой nразмерной выборки я рассчитал оценку стандартной оценки (функции sdhm). Затем я сравниваю среднее значение и стандартное отклонение этих оценок со стандартным отклонением выборки среднего гармонического значения, оцененного для каждой выборки, которое, предположительно, должно быть истинным стандартным отклонением среднего значения гармоник.

Как видите, результаты довольно хороши даже для умеренных размеров выборки. Конечно, равномерное распределение очень хорошо себя ведет, поэтому неудивительно, что результаты хорошие. Я оставлю кого-то еще, чтобы исследовать поведение других дистрибутивов, код очень легко адаптировать.

Примечание. В предыдущей версии этого ответа в результате дельта-метода произошла ошибка - неверная дисперсия.


2
@mpiktas Это хорошее начало и дает некоторые рекомендации, когда резюме низкое. Но даже в практических, простых ситуациях не ясно, применяется ли CLT. Я ожидал бы, что взаимные переменные многих переменных не будут иметь конечных секунд или даже первых моментов, когда есть какая-то заметная вероятность того, что их значения могут быть близки к нулю. Я также ожидал бы, что дельта-метод не будет применяться из-за потенциально больших производных обратной величины около нуля. Таким образом, это может помочь более точно охарактеризовать «простые приложения», в которых может работать ваш метод. Кстати, что такое "D"?
whuber

@whuber, D для дисперсии, . Под простыми приложениями я подразумевал те, для которых существует дисперсия и среднее взаимного. Как вы говорите, для случайных величин с заметной вероятностью, что их значения могут быть близки к нулю, обратные значения могут даже не иметь среднего значения. Но тогда ответ на оригинальный вопрос - нет. Я предположил, что ОП спросил, возможно ли рассчитать стандартное отклонение, когда оно существует. Это явно не для многих случайных величин. DX=E(XEX)2
mpiktas

@whuber, кстати, из любопытства - довольно стандартное обозначение для меня, но можно сказать, что я из русской вероятностной школы. Это не так часто встречается на «капиталистическом Западе»? :)DX
mpiktas

@mpiktas Я никогда не видел эту запись для дисперсии. Моей первой реакцией было то, что - дифференциальный оператор! Стандартные обозначения являются мнемоническими, такими как . V a r [ X ]DVar[X]
whuber

1
Статья Э.Леманна и Джульетты Поппер Шаффер «Обратные распределения» представляет собой интересное прочтение о распределениях инвертированных случайных величин.
emakalic

2

Мой ответ на связанный вопрос указывает на то, что среднее гармоническое для набора положительных данных является оценкой взвешенных наименьших квадратов (WLS) (с весами ). Поэтому вы можете вычислить его стандартную ошибку, используя методы WLS. Это имеет некоторые преимущества, в том числе простоту, универсальность и интерпретируемость, а также автоматически генерируется любым статистическим программным обеспечением, которое позволяет использовать весовые коэффициенты при расчете регрессии.xi1/xi

Основным недостатком является то, что расчет не дает хороших доверительных интервалов для сильно искаженных базовых распределений. Это может быть проблемой для любого метода общего назначения: среднее гармоническое чувствительно к присутствию даже одного крошечного значения в наборе данных.

Чтобы проиллюстрировать это, здесь приведены эмпирические распределения независимо сгенерированных выборок размером из гамма-распределения (5), который слегка скручен. Синие линии показывают среднее истинное значение гармоники (равное ), а красные пунктирные линии показывают взвешенные оценки наименьших квадратов. Вертикальные серые полосы вокруг синих линий - это приблизительные двусторонние 95% доверительные интервалы для среднего гармонического значения. В этом случае во всех выборках CI охватывает истинное среднее гармоническое. Повторения этого моделирования (со случайными семенами) предполагают, что охват близок к предполагаемому уровню 95%, даже для этих небольших наборов данных.20n=12420

фигуры

Вот Rкод для симуляции и цифры.

k <- 5             # Gamma parameter
n <- 12            # Sample size
hm <- k-1          # True harmonic mean
set.seed(17)

t.crit <- -qt(0.05/2, n-1)
par(mfrow=c(4, 5))
for(i in 1:20) {
  #
  # Generate a random sample.
  #
  x <- rgamma(n, k)
  #
  # Estimate the harmonic mean.
  #
  fit <- lm(x ~ 1, weights=1/x)
  beta <- coef(summary(fit))[1, ]
  message("Harmonic mean estimate is ", signif(beta["Estimate"], 3), 
          " +/- ", signif(beta["Std. Error"], 3))
  #
  # Plot the results.
  #
  covers <- abs(beta["Estimate"] - hm) <= t.crit*beta["Std. Error"]
  plot(ecdf(x), main="Empirical CDF", sub=ifelse(covers, "", "***"))
  rect(beta["Estimate"] - t.crit*beta["Std. Error"], 0, 
       beta["Estimate"] + t.crit*beta["Std. Error"], 1.25, 
       border=NA, col=gray(0.5, alpha=0.10))
  abline(v = hm, col="Blue", lwd=2)
  abline(v = beta["Estimate"], col="Red", lty=3, lwd=2)
}

1

Вот пример для экспоненциального р.в.

Среднее значение гармоники для точек данных определяется какn

S=11ni=1nXi

Предположим , у вас есть независимые одинаково распределенные образцы с случайной величины экспоненциальной, . Сумма экспоненциальных переменных следует гамма-распределениюnXiExp(λ)n

i=1nXiGamma(n,θ)

где . Мы также знаем, чтоθ=1λ

1nGamma(n,θ)Gamma(n,θn)

Распределение поэтомуS

SInvGamma(n,nθ)

Дисперсия (и стандартное отклонение) этого значения хорошо известны, см., Например, здесь .


3
Ваше определение среднего гармонического не соответствует википедии
mpiktas

Использование экспонент - это хороший подход к пониманию проблемы.
whuber

1
Вся надежда не совсем потеряна. Если Xi ~ Exp (\ lambda), то Xi ~ Gamma (1, \ lambda), поэтому 1 / Xi ~ InvGamma (1, 1 / \ lambda). Затем используйте «В. Витковский (2001). Вычисление распределения линейной комбинации инвертированных гамма-переменных, Kybernetika 37 (1), 79-90» и посмотрите, как далеко вы доберетесь!
Тристан

0

Существует опасение , что mpiktas CLT требует игрового ограниченную дисперсии на . Это правда, что имеет сумасшедшие хвосты, когда имеет положительную плотность около нуля. Однако во многих приложениях используется гармоническое среднее . Здесь ограничен , давая вам все моменты, которые вы хотите!1 / X X X 1 1 / X 11/X1/XXX11/X1


0

Я бы предложил использовать следующую формулу вместо стандартного отклонения:

σ=Ni=1N(1x^1xi)2,

где . Приятно то, что эта формула минимизируется, когда , и имеет те же единицы измерения, что и стандартное отклонение ( те же единицы, что и у ). х=Нx^=N1xix^=N1xix

Это аналогично стандартному отклонению, которое представляет собой значение, которое принимает, когда оно свернуто над , Оно минимизируется, когда является средним значением: .ххх=μ=11N(x^xi)2x^x^x^=μ=1Nxi

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.