Стандартным определением выброса для графика Бокса и Вискера являются точки вне диапазона , где I Q R = Q 3 - Q 1, а Q 1 - первый квартиль и Q 3 - третий квартиль данных.
На чем основано это определение? При большом количестве точек даже совершенно нормальное распределение возвращает выбросы.
Например, предположим, что вы начинаете с последовательности:
xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)
Эта последовательность создает процентиль ранжирования 4000 точек данных.
Проверка нормальности для qnormэтой серии приводит к:
shapiro.test(qnorm(xseq))
Shapiro-Wilk normality test
data: qnorm(xseq)
W = 0.99999, p-value = 1
ad.test(qnorm(xseq))
Anderson-Darling normality test
data: qnorm(xseq)
A = 0.00044273, p-value = 1
Результаты в точности соответствуют ожидаемым: нормальное нормальное распределение нормальное. Создание qqnorm(qnorm(xseq))создает (как и ожидалось) прямую линию данных:
Если создается блокпост с теми же данными, boxplot(qnorm(xseq))выдает результат:
Boxplot, в отличие от shapiro.test, ad.testили qqnormидентифицирует несколько точек , как при отклоняющихся значений размер выборки достаточно велик (как в этом примере).


