Стандартным определением выброса для графика Бокса и Вискера являются точки вне диапазона , где I Q R = Q 3 - Q 1, а Q 1 - первый квартиль и Q 3 - третий квартиль данных.
На чем основано это определение? При большом количестве точек даже совершенно нормальное распределение возвращает выбросы.
Например, предположим, что вы начинаете с последовательности:
xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)
Эта последовательность создает процентиль ранжирования 4000 точек данных.
Проверка нормальности для qnorm
этой серии приводит к:
shapiro.test(qnorm(xseq))
Shapiro-Wilk normality test
data: qnorm(xseq)
W = 0.99999, p-value = 1
ad.test(qnorm(xseq))
Anderson-Darling normality test
data: qnorm(xseq)
A = 0.00044273, p-value = 1
Результаты в точности соответствуют ожидаемым: нормальное нормальное распределение нормальное. Создание qqnorm(qnorm(xseq))
создает (как и ожидалось) прямую линию данных:
Если создается блокпост с теми же данными, boxplot(qnorm(xseq))
выдает результат:
Boxplot, в отличие от shapiro.test
, ad.test
или qqnorm
идентифицирует несколько точек , как при отклоняющихся значений размер выборки достаточно велик (как в этом примере).