А) Каков наилучший единичный индекс степени, в которой данные нарушают нормальность?
Б) Или просто лучше говорить о множественных показателях нарушения нормальности (например, асимметрия, эксцесс, распространенность)?
Я бы проголосовал за Б. Разные нарушения имеют разные последствия. Например, унимодальные, симметричные распределения с тяжелыми хвостами делают ваши CI очень широкими и, по-видимому, уменьшают способность обнаруживать любые эффекты. Однако среднее значение все еще достигает «типичного» значения. Для очень искаженных распределений, например, среднее значение может быть не очень разумным показателем «типичного значения».
C) Как можно рассчитать доверительные интервалы (или, возможно, байесовский подход) для индекса?
Я не знаю о байесовской статистике, но в отношении классического теста нормальности я хотел бы привести Erceg-Hurn et al. (2008) [2]:
Другая проблема состоит в том, что тесты предположений имеют свои собственные предположения. Тесты нормальности обычно предполагают, что данные являются гомоскедастичными; Тесты гомоскедастичности предполагают, что данные нормально распределены. Если допущения нормальности и гомоскедастичности нарушаются, валидность тестов допущений может быть серьезно скомпрометирована. Известные статистики описали предположительные тесты (например, тест Левена, тест Колмогорова – Смирнова), встроенные в программное обеспечение, такие как SPSS, как фатальные ошибки и рекомендовали, чтобы эти тесты никогда не использовались (D'Agostino, 1986; Glass & Hopkins, 1996).
D) Какие словесные метки вы могли бы присвоить точкам в этом индексе, чтобы указать степень нарушения нормальности (например, легкая, средняя, сильная, экстремальная и т. Д.)?
Micceri (1989) [1] провел анализ 440 крупномасштабных наборов данных в психологии. Он оценил симметрию и вес хвоста и определил критерии и метки. Метки асимметрии варьируются от «относительно симметричной» до «умеренной -> экстремальной -> экспоненциальной асимметрии». Метки для веса хвоста находятся в диапазоне от «Равномерно -> меньше, чем гауссово -> О гауссово -> Умеренно -> Экстремально -> Двойное экспоненциальное загрязнение». Каждая классификация основана на нескольких надежных критериях.
Он обнаружил, что из этих 440 наборов данных только 28% были относительно симметричными, и только 15% были примерно гауссовыми относительно веса хвоста. Поэтому хорошее название статьи:
Единорог, нормальная кривая и другие невероятные существа
Я написал R
функцию, которая автоматически оценивает критерии Micceri, а также распечатывает этикетки:
# This function prints out the Micceri-criteria for tail weight and symmetry of a distribution
micceri <- function(x, plot=FALSE) {
library(fBasics)
QS <- (quantile(x, prob=c(.975, .95, .90)) - median(x)) / (quantile(x, prob=c(.75)) - median(x))
n <- length(x)
x.s <- sort(x)
U05 <- mean(x.s[(.95*n ):n])
L05 <- mean(x.s[1:(.05*n)])
U20 <- mean(x.s[(.80*n):n])
L20 <- mean(x.s[1:(.20*n)])
U50 <- mean(x.s[(.50*n):n])
L50 <- mean(x.s[1:(.50*n)])
M25 <- mean(x.s[(.375*n):(.625*n)])
Q <- (U05 - L05)/(U50 - L50)
Q1 <- (U20 - L20)/(U50 - L50)
Q2 <- (U05 - M25)/(M25 - L05)
# mean/median interval
QR <- quantile(x, prob=c(.25, .75)) # Interquartile range
MM <- abs(mean(x) - median(x)) / (1.4807*(abs(QR[2] - QR[1])/2))
SKEW <- skewness(x)
if (plot==TRUE) plot(density(x))
tail_weight <- round(c(QS, Q=Q, Q1=Q1), 2)
symmetry <- round(c(Skewness=SKEW, MM=MM, Q2=Q2), 2)
cat.tail <- matrix(c(1.9, 2.75, 3.05, 3.9, 4.3,
1.8, 2.3, 2.5, 2.8, 3.3,
1.6, 1.85, 1.93, 2, 2.3,
1.9, 2.5, 2.65, 2.73, 3.3,
1.6, 1.7, 1.8, 1.85, 1.93), ncol=5, nrow=5)
cat.sym <- matrix(c(0.31, 0.71, 2,
0.05, 0.18, 0.37,
1.25, 1.75, 4.70), ncol=3, nrow=3)
ts <- c()
for (i in 1:5) {ts <- c(ts, sum(abs(tail_weight[i]) > cat.tail[,i]) + 1)}
ss <- c()
for (i in 1:3) {ss <- c(ss, sum(abs(symmetry[i]) > cat.sym[,i]) + 1)}
tlabels <- c("Uniform", "Less than Gaussian", "About Gaussian", "Moderate contamination", "Extreme contamination", "Double exponential contamination")
slabels <- c("Relatively symmetric", "Moderate asymmetry", "Extreme asymmetry", "Exponential asymmetry")
cat("Tail weight indexes:\n")
print(tail_weight)
cat(paste("\nMicceri category:", tlabels[max(ts)],"\n"))
cat("\n\nAsymmetry indexes:\n")
print(symmetry)
cat(paste("\nMicceri category:", slabels[max(ss)]))
tail.cat <- factor(max(ts), levels=1:length(tlabels), labels=tlabels, ordered=TRUE)
sym.cat <- factor(max(ss), levels=1:length(slabels), labels=slabels, ordered=TRUE)
invisible(list(tail_weight=tail_weight, symmetry=symmetry, tail.cat=tail.cat, sym.cat=sym.cat))
}
Вот тест для стандартного нормального распределения, с 8 df и log-normal:t
> micceri(rnorm(10000))
Tail weight indexes:
97.5% 95% 90% Q Q1
2.86 2.42 1.88 2.59 1.76
Micceri category: About Gaussian
Asymmetry indexes:
Skewness MM.75% Q2
0.01 0.00 1.00
Micceri category: Relatively symmetric
> micceri(rt(10000, 8))
Tail weight indexes:
97.5% 95% 90% Q Q1
3.19 2.57 1.94 2.81 1.79
Micceri category: Extreme contamination
Asymmetry indexes:
Skewness MM.75% Q2
-0.03 0.00 0.98
Micceri category: Relatively symmetric
> micceri(rlnorm(10000))
Tail weight indexes:
97.5% 95% 90% Q Q1
6.24 4.30 2.67 3.72 1.93
Micceri category: Double exponential contamination
Asymmetry indexes:
Skewness MM.75% Q2
5.28 0.59 8.37
Micceri category: Exponential asymmetry
[1] Micceri, T. (1989). Единорог, нормальная кривая и другие невероятные существа. Психологический вестник, 105 , 156-166. DOI: 10,1037 / 0033-2909.105.1.156
[2] Эрцег-Херн Д.М., Миросевич В.М. (2008). Современные надежные статистические методы: простой способ максимизировать точность и эффективность ваших исследований. Американский психолог, 63 , 591-601.