Что является основанием для определения выброса по Боксу и Вискеру?


17

Стандартным определением выброса для графика Бокса и Вискера являются точки вне диапазона , где I Q R = Q 3 - Q 1, а Q 1 - первый квартиль и Q 3 - третий квартиль данных.{Q11.5IQR,Q3+1.5IQR}IQR=Q3Q1Q1Q3

На чем основано это определение? При большом количестве точек даже совершенно нормальное распределение возвращает выбросы.

Например, предположим, что вы начинаете с последовательности:

xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)

Эта последовательность создает процентиль ранжирования 4000 точек данных.

Проверка нормальности для qnormэтой серии приводит к:

shapiro.test(qnorm(xseq))

    Shapiro-Wilk normality test

data:  qnorm(xseq)
W = 0.99999, p-value = 1

ad.test(qnorm(xseq))

    Anderson-Darling normality test

data:  qnorm(xseq)
A = 0.00044273, p-value = 1

Результаты в точности соответствуют ожидаемым: нормальное нормальное распределение нормальное. Создание qqnorm(qnorm(xseq))создает (как и ожидалось) прямую линию данных:

qqnorm график данных

Если создается блокпост с теми же данными, boxplot(qnorm(xseq))выдает результат:

блокпост данных

Boxplot, в отличие от shapiro.test, ad.testили qqnormидентифицирует несколько точек , как при отклоняющихся значений размер выборки достаточно велик (как в этом примере).


что вы подразумеваете под "основой"? это какое-то определение, и никто не говорит, что совершенно нормальное распределение не имеет выбросов
Haitao Du

2
@ hxd1011, определение распределения не может быть отклонением от самого себя. Это определение для тестирования на выбросы на рамке и вискерном участке - это тестирование / что-то / для предоставления результата, то, что бы оно ни тестировало, было бы основой теста.
Таврок

Я думаю, что определение выброса в виде прямоугольника и усика - это всего лишь эвристика ... Кроме того, почему определение распределения не может иметь выброс от себя?
Haitao Du

3
Неважно, какое правило вы выберете, вы в конечном итоге скажете: «с большим количеством точек, даже совершенно нормальное распределение возвращает выбросы». [Попробуйте найти способ полезного определения выбросов, которые не могут отклонить какие-либо точки, если вы
берете

1
Часто повторяющийся анекдот состоит в том, что Джона Тьюки, который придумал это эмпирическое правило, спросили, почему 1,5; и сказал, что 1 будет слишком мало, а 2 будет слишком много. Учитывая количество раз, когда я воспринимал это как неверный определенный оракулярный критерий, я был бы более чем счастлив, если бы он исчез. Теперь у всех нас есть компьютеры, которые могут показать все данные!
Ник Кокс

Ответы:


25

присущи рефлективный, вербальный

Вот соответствующий раздел Hoaglin, Mosteller and Tukey (2000): Понимание надежного и разведочного анализа данных. Wiley . Глава 3 «Бокплоты и пакетное сравнение», написанная Джоном Д. Эмерсоном и Джудит Стренио (со стр. 62):

FL32dFFU+32dF

FLFUdFFUFL

Они идут и показывают приложение гауссовскому населению (стр. 63):

0100.67450.67451.34943322.02352±2.69822399.3%

Так

0.7%

Далее пишут

[...] Таким образом, мы можем судить, кажутся ли наши данные более узкими, чем гауссовские, по количеству точек, выходящих за пределы выбросов. [...]

Они предоставляют таблицу с ожидаемой долей значений, которые выходят за пределы выбросов (помеченные как «Total% Out»):

Таблица 3-2

Таким образом, эти пороговые значения никогда не были строгим правилом относительно того, какие точки данных являются выбросами или нет. Как вы заметили, ожидается, что даже идеальное нормальное распределение будет демонстрировать «выбросы» в коробочном графике.


Выпадающие

Насколько я знаю, не существует общепринятого определения выброса. Мне нравится определение Хокинса (1980):

Выделение - это наблюдение, которое настолько отличается от других наблюдений, что вызывает подозрения, что оно было вызвано другим механизмом.

В идеале, вы должны рассматривать точки данных как выбросы только после того, как поймете, почему они не принадлежат остальным данным. Простое правило не достаточно. Хорошее лечение выбросов можно найти в Aggarwal (2013).

Ссылки

Aggarwal CC (2013): Анализ выбросов. Springer.
Хокинс Д. (1980): идентификация выбросов. Чепмен и Холл.
Hoaglin, Mosteller and Tukey (2000): понимание надежного и разведочного анализа данных. Wiley.


7

Предполагается, что слово «выброс» часто означает что-то вроде «значения данных, которое является ошибочным, вводящим в заблуждение, ошибочным или ошибочным и поэтому должно быть исключено из анализа», но это не то, что Тьюки имел в виду при использовании выброса. Выбросы - это просто точки, которые находятся далеко от медианы набора данных.

Ваше мнение об ожидаемых выбросах во многих наборах данных является правильным и важным. И есть много хороших вопросов и ответов по теме.

Удаление выбросов из асимметричных данных

Целесообразно ли выявлять и удалять выбросы, потому что они вызывают проблемы?


2

Как и во всех методах обнаружения выбросов, необходимо тщательно продумать и определить, какие значения действительно являются выбросами. Я думаю, что коробочный график просто обеспечивает хорошую визуализацию распространения данных, и любые истинные выбросы будет легко уловить.


0

Я думаю, что вы должны быть обеспокоены, если вы не получите некоторые выбросы как часть нормального распределения, в противном случае, возможно, вам следует искать причины, которых нет. Ясно, что они должны быть проверены, чтобы убедиться, что они не записывают ошибки, но в противном случае их следует ожидать.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.