Я знаю обобщение стандартных коробочных графиков, в которых длины усов корректируются для учета искаженных данных. Детали лучше объясняются в очень четкой и краткой белой книге (Vandervieren, E., Hubert, M. (2004) «Скорректированный коробочный график для искаженных распределений», см. Здесь ).
рrobustbase :: adjbox ()Весы
Я лично считаю, что это лучшая альтернатива преобразованию данных (хотя оно также основано на специальном правиле, см. Технический документ).
Между прочим, я обнаружил, что мне есть, что добавить к примеру с Уубером. В той мере, в которой мы обсуждаем поведение усов, мы действительно должны также учитывать, что происходит при рассмотрении загрязненных данных:
library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20, 4, 4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox( B1, col="red", main="adjusted boxplot of data")
В этой модели загрязнения B1 имеет, по существу, логарифмическое нормальное распределение, за исключением 20 процентов данных, которые являются наполовину левыми, наполовину правыми выбросами (точка разрыва в соседних ячейках такая же, как и в случае обычных коробочных диаграмм, то есть предполагается, что самое большее 25 процентов данных могут быть плохими).
На графиках изображены классические коробчатые диаграммы преобразованных данных (с использованием преобразования квадратного корня)
и скорректированный блок-график нетрансформированных данных.
По сравнению с откорректированными коробочными диаграммами первый вариант маскирует реальные выбросы и маркирует хорошие данные как выбросы. В целом, будет удастся скрыть любые доказательства асимметрии в данных, классифицируя оскорбительные точки как выбросы.
В этом примере подход использования стандартного блочного графика в корне квадратном из данных находит 13 выбросов (все справа), тогда как скорректированный блок-график находит 10 правых и 14 левых выбросов.
РЕДАКТИРОВАТЬ: скорректированные участки коробки в двух словах.
На «классических» бокс-плотах усы размещаются по адресу:
Q1Q3
Q1Q3
Это практическое правило является специальным: обоснование состоит в том, что если незагрязненная часть данных является приблизительно гауссовой, то менее 1% хороших данных будет классифицировано как плохие с использованием этого правила.
Слабость этого правила ограждения, как указывает OP, заключается в том, что длина двух усов идентична, то есть правило ограждения имеет смысл, только если незагрязненная часть данных имеет симметричное распределение.
Популярный подход заключается в том, чтобы сохранить правило забора и адаптировать данные. Идея состоит в том, чтобы преобразовать данные, используя некоторое корректирующее монотонное преобразование (квадратный корень или лог или, в более общем случае, преобразования Бокса-Кокса). Это несколько запутанный подход: он основан на круговой логике (преобразование должно быть выбрано так, чтобы исправить асимметрию незагрязненной части данных, которая на данном этапе ненаблюдаема) и имеет тенденцию затруднять интерпретацию данных. визуально. В любом случае, это остается странной процедурой, при которой кто-то изменяет данные, чтобы сохранить то, что в конце концов является специальным правилом.
Альтернатива состоит в том, чтобы оставить данные нетронутыми и изменить правило вискера. Настроенный блок-график позволяет изменять длину каждого вискера в соответствии с индексом, измеряющим асимметрию незагрязненной части данных:
Q1ехр( М, α )Q3ехр( М, β)
Mα β
M≈ 0
MMαβ
Q1ехр( - 4 М)Q3ехр( 3 М)M≥ 0
Q1ехр( - 3 М)Q3ехр( 4 М)M< 0