Я провел много исследований по выбросам, особенно когда работал над проверкой энергетических данных в Ок-Ридже с 1978 по 1980 годы. Существуют формальные тесты для одномерных выбросов для нормальных данных (например, тест Граббса и тест отношения Диксона). Существуют тесты для многомерных выбросов и временных рядов. Книга Барнетта и Льюиса «Выбросы в статистических данных» представляет собой библию о выбросах и охватывает практически все.
Когда я работал в Oak Ridge над проверкой данных, у нас были большие многомерные наборы данных. Для одномерных выбросов существует направление для крайностей (значительно выше среднего и значительно ниже среднего). Но для многовариантных выбросов есть много направлений для поиска выбросов. Наша философия заключалась в том, чтобы рассмотреть, для чего предназначены данные. Если вы пытаетесь оценить определенные параметры, такие как двумерная корреляция или коэффициент регрессии, вам нужно смотреть в направлении, которое оказывает наибольшее влияние на интересующий параметр. В то время я читал неопубликованную статью Мэлловса о функциях влияния. Использование функций влияния для обнаружения выбросов описано в многомерной аналитической книге Гнанадесикана. Конечно, вы можете найти это и в Барнетте и Льюисе.
Функция влияния для параметра определяется в точках в многомерном пространстве наблюдений и по существу измеряет разницу между оценкой параметра, когда точка данных включена, по сравнению с тем, когда она опущена. Вы можете делать такие оценки для каждой точки выборки, но обычно вы можете получить хорошую функциональную форму для функции влияния, которая дает понимание и ускоряет вычисления.
Например, в моей статье в Американском журнале математических и управленческих наук в 1982 году «Функция влияния и ее применение к проверке данных» я показываю аналитическую формулу для функции влияния для двумерной корреляции и контуры постоянного влияния являются гиперболами. Таким образом, контуры показывают направление в плоскости, где функция влияния увеличивается быстрее всего.
В моей статье я показываю, как мы применили функцию влияния для двумерной корреляции с данными Формы 4 FPC о производстве и потреблении энергии. Существует четкая высокая положительная корреляция между ними, и мы обнаружили несколько выбросов, которые сильно повлияли на оценку корреляции. Дальнейшее расследование показало, что по крайней мере один из пунктов был ошибочным, и мы смогли исправить это.
Но важный момент, который я всегда упоминаю при обсуждении выбросов, заключается в том, что автоматический отказ - это неправильно. Выброс не всегда является ошибкой, и иногда он предоставляет важную информацию о данных. Действительные данные не должны быть удалены только потому, что они не соответствуют нашей теории реальности. Независимо от того, трудно ли это сделать, всегда следует выяснять причину возникновения выброса.
Я должен отметить, что это не первый раз, когда многовариантные выбросы обсуждались на этом сайте. Поиск выбросов, вероятно, приведет к нескольким вопросам, в которых обсуждались многовариантные выбросы. Я знаю, что я ссылался на свою газету и эти книги раньше и дал ссылки на них.
Также, когда обсуждается отклонение от нормы, многие из нас на этом сайте рекомендуют против него, особенно если это делается исключительно на основе статистического теста. Питер Хубер часто упоминает надежную оценку в качестве альтернативы отклонению. Идея состоит в том, что надежные процедуры уменьшают выбросы, уменьшая их влияние на оценку, без сложного шага их отклонения и использования ненадежной оценки.
Функция влияния была первоначально разработана Фрэнком Хэмпелом в его докторской диссертации в начале 1970-х (я думаю, 1974). Его идея состояла в том, чтобы на самом деле использовать функции влияния, чтобы идентифицировать оценки, которые не были устойчивы к выбросам, и помочь в разработке надежных оценок.
Вот ссылка на предыдущее обсуждение по этой теме, где я упомянул некоторую мою работу по обнаружению выбросов во временных рядах с использованием функций влияния.