Рассмотрим случайный набор чисел, которые обычно распределяются:
x <- rnorm(n=1000, mean=10)
Нам бы хотелось знать среднее и стандартную ошибку на среднем, поэтому мы делаем следующее:
se <- function(x) { sd(x)/sqrt(length(x)) }
mean(x) # something near 10.0 units
se(x) # something near 0.03 units
Большой!
Однако, давайте предположим, что мы не обязательно знаем, что наш оригинальный дистрибутив следует нормальному. Мы лог-трансформируем данные и выполняем те же стандартные вычисления ошибок.
z <- log(x, base=10)
mean(z) # something near 1 log units
se(z) # something near 0.001 log units
Круто, но теперь нам нужно обратное преобразование, чтобы получить ответ в единицах, а не в логах.
10^mean(z) # something near 10.0 units
10^se(z) # something near 1.00 units
Мой вопрос: почему для нормального распределения стандартная ошибка отличается в зависимости от того, была ли она рассчитана из самого распределения или была ли она преобразована, рассчитана и обратно преобразована? Примечание: средства вышли одинаковыми независимо от трансформации.
РЕДАКТИРОВАТЬ # 1: В конечном счете, я заинтересован в вычислении среднего и доверительных интервалов для не нормально распределенных данных, так что, если вы можете дать некоторые рекомендации о том, как рассчитать 95% CI для преобразованных данных, включая способы обратного преобразования в их собственные единицы , Буду премного благодарен!
КОНЕЦ РЕДАКТИРОВАНИЯ № 1
РЕДАКТИРОВАТЬ # 2: я попытался использовать функцию квантиля, чтобы получить 95% доверительные интервалы:
quantile(x, probs = c(0.05, 0.95)) # around [8.3, 11.6]
10^quantile(z, probs = c(0.05, 0.95)) # around [8.3, 11.6]
Итак, это сходится на том же ответе, что хорошо. Однако использование этого метода не дает точно такой же интервал, используя ненормальные данные с «маленькими» размерами выборки:
t <- rlnorm(10)
mean(t) # around 1.46 units
10^mean(log(t, base=10)) # around 0.92 units
quantile(t, probs = c(0.05, 0.95)) # around [0.211, 4.79]
10^(quantile(log(t, base=10), probs = c(0.05, 0.95))) # around [0.209, 4.28]
Какой метод будет считаться «более правильным». Я полагаю, можно было бы выбрать наиболее консервативную оценку?
В качестве примера, могли бы вы сообщить, что этот результат для ненормальных данных (t) имеет среднее значение 0,92 единиц с 95% доверительным интервалом [0,211, 4,79]?
КОНЕЦ РЕДАКТИРОВАНИЯ № 2
Спасибо за ваше время!