Наилучшим вариантом использования регрессии для выявления выбросов является использование надежной регрессии.
На обычную регрессию выбросы могут повлиять двумя способами:
Во-первых, экстремальный выброс в направлении y при значениях x около может повлиять на подгонку в этой области так же, как выброс может повлиять на среднее значение.x¯
Во-вторых, «отдаленное» наблюдение в x-пространстве является влиятельным наблюдением - оно может подтянуть линию линии к нему. Если он достаточно далеко, линия пройдет через влиятельную точку:
На левом графике есть очень влиятельная точка, которая сильно оттягивает линию от большого объема данных. На правом графике он был перемещен еще дальше - и теперь линия проходит через точку. Когда значение x является таким экстремальным, когда вы перемещаете эту точку вверх и вниз, линия движется вместе с ней, проходя через среднее значение других точек и через одну влиятельную точку.
Влиятельная точка, которая полностью согласуется с остальными данными, может быть не такой большой проблемой, но та, которая далека от линии, проходящей через остальные данные, будет соответствовать линии, а не данным.
Если вы посмотрите на правый график, красная линия - линия регрессии наименьших квадратов - вообще не показывает крайнюю точку как выброс - ее остаток равен 0. Вместо этого большие остатки от линии наименьших квадратов находятся в основная часть данных!
Это означает, что вы можете полностью пропустить выброс .
Еще хуже то, что при множественной регрессии выброс в x-пространстве может не выглядеть особенно необычно для любой отдельной x-переменной. Если есть вероятность такой точки, использовать регрессию наименьших квадратов потенциально очень рискованно.
Робастная регрессия
Если вы подбираете устойчивую линию, в частности одну устойчивую к влиятельным выбросам, например зеленую линию на втором графике, тогда выброс имеет очень большой остаток.
В этом случае у вас есть некоторая надежда определить выбросы - это будут точки, которые в некотором смысле не находятся близко к линии.
Удаление выбросов
Вы, конечно, можете использовать надежную регрессию, чтобы идентифицировать и тем самым удалить выбросы.
Но если у вас есть надежная регрессионная подгонка, которая уже не сильно пострадала от выбросов, вам не обязательно удалять выбросы - у вас уже есть модель, которая хорошо подходит.