Я отвечу на ваши вопросы в обратном порядке, в котором вы их задавали, чтобы изложение происходило от конкретного к общему.
Во-первых, давайте рассмотрим ситуацию, когда вы можете предположить, что, за исключением небольшого числа выбросов, объем ваших данных может быть хорошо описан известным распределением (в вашем случае - экспоненциальным).
x
pX(x)=σ−1exp(−(x−θ)σ),x>0;σ>0
xθ=0 , называется однопараметрическим или стандартным экспоненциальным распределением).
Обычная оценка MLE параметров: [0, p 506]:
θ^=minixi
а также
σ^=aveixi−minixi
Вот пример в R
:
n<-100
theta<-1
sigma<-2
set.seed(123) #for reproducibility
x<-rexp(n,rate=1/sigma)+theta
mean(x)-min(x)
σ≈2.08 .
xi−xi
m<-floor(0.2*n)
y<-x
y[1:m]<--y[1:m]
mean(y)-min(y)
σ≈11.12xi100xi (скажем, если десятичное место было случайно смещено):
m<-floor(0.2*n)
z<-x
z[1:m]<-100*z[1:m]
mean(z)-min(z)
σ≈54 (!).
Альтернатива необработанному MLE состоит в том, чтобы (а) найти выбросы, используя надежное правило идентификации выбросов , (b) отложить их в сторону как побочные данные и (c) вычислить MLE на не ложной части выборки.
Наиболее известным из этих надежных правил идентификации выбросов является правило «мед / безумный», предложенное Хампелем [3], который приписал его Гауссу (я проиллюстрировал это правило здесь ). В правиле med / mad, порог отклонения основан на предположении, что подлинные наблюдения в вашей выборке хорошо аппроксимируются нормальным распределением.
Конечно, если у вас есть дополнительная информация (например, зная, что распределение подлинных наблюдений хорошо аппроксимируется распределением Пуассона, как в этом примере ), ничто не помешает вам преобразовать ваши данные и использовать базовое правило отклонения выбросов ( мед / безумие) но мне немного неловко преобразовывать данные, чтобы сохранить то, что в конце концов является специальным правилом.
Мне кажется гораздо более логичным сохранить данные, но адаптировать правила отклонения. Затем вы все равно будете использовать трехэтапную процедуру, которую я описал в первой ссылке выше, но с порогом отклонения, адаптированным к распределению, вы подозреваете, что хорошая часть данных имеет. Ниже я даю правило отклонения в ситуациях, когда подлинные наблюдения хорошо соответствуют экспоненциальному распределению. В этом случае вы можете построить хорошие пороги отклонения, используя следующее правило:
θ
θ^′=medixi−3.476Qn(x)ln2
≈3.476 , подробнее см. [1].
2) отклонить как ложные все наблюдения за пределами [2, с 188]
[θ^′,9(1+2/n)medixi+θ^′]
(коэффициент 9 в вышеприведенном правиле получается как 7,1 в ответе Glen_b выше, но с использованием более высокого порога. Коэффициент (1 + 2 / n) - это небольшой поправочный коэффициент выборки, который был получен путем моделирования в [2]. Для достаточно больших размеров выборки он по существу равен 1).
σ
σ^′=avei∈Hxi−mini∈Hxi
H={i:θ^′≤xi≤9(1+2/n)medixi+θ^′}
используя это правило в предыдущих примерах, вы получите:
library(robustbase)
theta<-median(x)-Qn(x,constant=3.476)*log(2)
clean<-which(x>=theta & x<=9*(1+2/n)*median(x)+theta)
mean(x[clean])-min(x[clean])
σ≈2.05
theta<-median(y)-Qn(y,constant=3.476)*log(2)
clean<-which(y>=theta & y<=9*(1+2/n)*median(y)+theta)
mean(y[clean])-min(y[clean])
σ≈2.2
На третьем примере:
theta<-median(z)-Qn(z,constant=3.476)*log(2)
clean<-which(z>=theta & z<=9*(1+2/n)*median(z)+theta)
mean(z[clean])-min(z[clean])
σ≈2.2
{i:i∉H} ).
Теперь, для общего случая, когда у вас нет хорошего распределения кандидатов, подходящего под большую часть ваших наблюдений, помимо знания того, что симметричное распределение не подойдет, вы можете использовать скорректированный блок-график [4]. Это обобщение коробчатого графика, которое учитывает (непараметрический и устойчиво устойчивый) показатель асимметрии ваших данных (так что, когда объем данных симметричен, сворачивается до обычного коробчатого графика). Вы также можете проверить этот ответ для иллюстрации.
- [0] Джонсон Н.Л., Коц С., Балакришнан Н. (1994). Непрерывные одномерные распределения, том 1, 2-е издание.
- [1] Rousseeuw PJ и Croux C. (1993). Альтернативы срединному абсолютному отклонению. Журнал Американской Статистической Ассоциации, Vol. 88, № 424, с. 1273-1-133.
- [2] JK Patel, CH Kapadia и DB Owen, Dekker (1976). Справочник статистических распределений.
- [3] Hampel (1974). Кривая влияния и ее роль в робастной оценке. Журнал Американской статистической ассоциации Vol. 69, № 346 (Jun., 1974), с. 383-393.
- [4] Вандервьерен, Э., Хьюберт, М. (2004). «Скорректированный коробочный график для перекошенных распределений». Вычислительная статистика и анализ данных Том 52, выпуск 12, 15 августа 2008 года, страницы 5186–5201.
1.5*IQR
определение выброса не является общепринятым. Попробуйте разгрузить свой вопрос и рассказать о проблеме, которую вы пытаетесь решить.