Пометка выбросов не является суждением (или в любом случае не обязательно). Учитывая статистическую модель, выбросы имеют точное, объективное определение: это наблюдения, которые не соответствуют шаблону большинства данных. Такие наблюдения должны быть отделены в начале любого анализа просто потому, что их расстояние от массива данных гарантирует, что они будут оказывать непропорциональное усилие на любую многомерную модель, подобранную по максимальному правдоподобию (или даже любой другой функции выпуклых потерь).
Важно отметить, что многомерная останец s просто не может быть надежно обнаружен при помощи остатков от наименьших квадратов (или любой другой модели , оцененной с помощью ML, или любой другой функции потерь выпуклым). Проще говоря, многовариантные выбросы могут быть надежно обнаружены только с помощью их остатков из модели, подобранной с использованием процедуры оценки, которая не может быть ими подвержена
Вера в то, что выбросы будут обязательно выделяться в остатках классического соответствия, занимает где-то там место с другими трудно опровергаемыми статистическими отрицаниями, такими как интерпретация значений p как меры доказательств или вывод о популяции из предвзятой выборки. За исключением, возможно, того, что этот может быть намного старше: сам Гаусс рекомендовал использовать надежную оценку, такую как медиана и безумие (вместо классического среднего значения и стандартных отклонений), чтобы оценить параметры нормального распределения из шумных наблюдений (даже идущих насколько выводит коэффициент согласованности безумца (1)).
Чтобы дать простой визуальный пример, основанный на реальных данных, рассмотрим печально известные данные звезды CYG . Красная линия здесь показывает подгонку наименьших квадратов, синяя линия - подгонку, полученную с использованием надежного подбора линейной регрессии. Надежная подгонка здесь - это подгонка FastLTS (2), альтернатива подгонке LS, которая может использоваться для обнаружения выбросов (поскольку она использует процедуру оценки, которая гарантирует, что влияние любого наблюдения на оцененный коэффициент ограничено). Код R для его воспроизведения:
library(robustbase)
data(starsCYG)
plot(starsCYG)
lm.stars <- lm(log.light ~ log.Te, data = starsCYG)
abline(lm.stars$coef,col="red",lwd=2)
lts.stars <- ltsReg(log.light ~ log.Te, data = starsCYG)
abline(lts.stars$coef,col="blue",lwd=2)
Интересно, что 4 отдаленных наблюдения слева даже не имеют наибольших невязок относительно соответствия LS и графика QQ остатков соответствия LS (или любого из диагностических инструментов, полученных из них, таких как расстояние Кука или dfbeta) не может показать ни одного из них как проблемного. Это на самом деле норма: не требуется более двух выбросов (независимо от размера выборки), чтобы получить оценки LS таким образом, чтобы выбросы не выделялись на остаточном графике. Это называется маскирующим эффектоми это хорошо задокументировано. Возможно, единственное, что примечательно в наборе данных CYGstars, это то, что он является двумерным (следовательно, мы можем использовать визуальный осмотр для подтверждения результата надежного подбора) и что на самом деле есть хорошее объяснение того, почему эти четыре наблюдения слева настолько ненормальны.
Это, между прочим, исключение больше, чем правило: за исключением небольших пилотных исследований, включающих небольшие выборки и несколько переменных, и где человек, выполняющий статистический анализ, также был вовлечен в процесс сбора данных, у меня никогда не было случая, когда бытует мнение о идентичность выбросов на самом деле были правдой. Это, кстати, легко проверить. Независимо от того, были ли выбросы идентифицированы с использованием алгоритма обнаружения выброса или ощущения интуиции исследователя, выбросы по определению являются наблюдениями, которые имеют ненормальный рычаг (или «тягу») над коэффициентами, полученными из подбора LS. Другими словами, выбросы - это наблюдения, удаление которых из образца должно серьезно повлиять на подгонку LS.
Хотя я лично никогда не сталкивался с этим, в литературе есть несколько хорошо документированных случаев, когда наблюдения, помеченные как выбросы с помощью алгоритма обнаружения выбросов, были позже признаны грубыми ошибками или сгенерированы другим процессом. В любом случае, это не является ни научно обоснованным, ни разумным, чтобы удалять выбросы, только если их можно как-то понять или объяснить. Если небольшая группа наблюдений настолько удалена от основной части данных, что она может в одиночку извлекать результаты статистической процедуры сама по себе, разумно (и я мог бы добавить, естественно) рассматривать ее отдельно независимо от того, Эти данные не являются подозрительными и по другим причинам.
(1): см. Стивен М. Стиглер, «История статистики: измерение неопределенности до 1900 года».
(2): Вычисление регрессии LTS для больших наборов данных (2006) PJ Rousseeuw, K. van Driessen.
(3): надежные многомерные методы с высоким уровнем пробоя (2008). Hubert M., Rousseeuw PJ и Van Aelst S. Источник: Статистика. Sci. Том 23, 92-119.