Разница между аномалией и выбросом


13

В чем разница между Outlier и Anomaly в контексте машинного обучения. Я понимаю, что оба они относятся к одному и тому же.


3
Из любопытства, где в литературе проводится такое различие? У меня сложилось впечатление, что «выбросы» не имеют формального определения, за исключением того, что они имеют высокий левередж и наблюдения с высоким влиянием. Влияние и рычаги делают имеют математические определения, но учитывая то «высокий» является произвольным. Кажется, что произвольные слова меняются местами.
AdamO

Люди, которые используют слово «inlier», неявно проводят какое-то различие между «anomaly» и «outlier», потому что «inlier» - это своего рода аномалия. Поскольку ни «выбросы», ни «аномалии» не имеют определенных, общепринятых технических определений, следует ожидать, что этот вопрос будет иметь несколько ответов, которые (хотя бы немного) отличаются друг от друга.
whuber

Ответы:


9

Два термина являются синонимами в соответствии с:

Aggarwal, Charu C. Анализ выбросов. Springer New York, 2017, doi: http://dx.doi.org/10.1007/978-3-319-47578-3_1

Цитата со страницы 1:

Выбросы также упоминаются как отклонения, несоответствия, отклонения или аномалии в литературе по анализу данных и статистике.

Жирный текст не является частью исходного текста.

Бесплатно скачать PDF книги доступны от автора здесь.


Тот факт, что «выбросы» упоминаются как «аномалии», не означает, что они являются синонимами. В этом отношении «собак» иногда называют «животными». Я попытался ответить на этот вопрос более подробно в этом ответе (я не смог опубликовать его здесь, потому что вопрос защищен).
Marco13

9

Неприличный ответ:

Выброс: значение, которое вы предсказуемо находите в своих данных и которое указывает на то, что ваша модель не работает должным образом

Аномалия: значение, которое, несмотря на все шансы, обнаруженные в ваших данных, указывает на то, что ваша модель работает правильно

Более серьезный, менее загадочный ответ:

Концепция выбросов начинается с вопроса построения модели, которая делает предположения о данных. Выбросы часто являются признаками того, что модель не описывает данные должным образом, и поэтому мы должны ставить под сомнение результаты нашей модели или качество наших данных.

Концепция аномалий начинается за пределами теоретического мира и внутри прикладного мира: мы хотим искать в наших данных необычное поведение, иногда мотивируемое тем фактом, что мы заинтересованы в поиске поведения, которое кто-то пытается скрыть (например, вирус в Эл. адрес). Проблема в том, что, поскольку люди пытаются скрыть, что они делают, мы не знаем, что искать. Поэтому мы берем набор «хороших» данных и решаем, что все, что мы находим в нашем новом наборе данных, который не выглядит «хорошим», является аномалией и стоит нашего времени, чтобы проверить более подробно. Часто поиск аномалий означает поиск выбросов в вашем новом наборе данных. Но обратите внимание, что эти значения могут быть очень распространены в вашем новом наборе данных, несмотря на то, что они редки в вашем старом наборе данных!

Таким образом, эти две концепции очень похожи с точки зрения статистики, стоящей за ними (то есть необычных значений для вашей подобранной модели), но приходят к идее с разных точек зрения. Кроме того, когда мы говорим о выбросах, мы обычно подразумеваем необычную точку данных в данных, используемых для соответствия нашей модели , где аномалия обычно подразумевается как необычная точка данных в наборе данных за пределами данных, используемых для соответствия нашей модели .

Примечание: этот ответ основан на том, что я видел часто используемые два термина, а не формальные определения. Пользовательский опыт может отличаться.


6

Аномалия - это результат, который невозможно объяснить с учетом базового распределения (это невозможно, если наши предположения верны). Выброс - маловероятное событие, учитывая базовое распределение (невероятность).


7
Цитирование источника для определений и примера очень улучшит ответ.
Тим

4
Насколько я знаю, они синонимы. Так что @H. Икбал действительно должен процитировать источник, и все читатели должны затем оценить авторитетность источника сайд
Жак Вайнер

2
Кажется, что невозможность подразумевает P (X = ANOMALY) = 0 (т. Е. Ровно 0). Мое понимание обнаружения аномалий заключается в том, что исследователь может интересоваться событиями, которые могут иметь положительную вероятность.
Клифф А.Б.

4

Термины в основном используются взаимозаменяемо. «Выражение» относится к чему-то, лежащему вне нормы, поэтому оно является «аномальным». Но у меня есть предположение, что «выброс» обычно используется для очень редких наблюдений. В статистике при нормальном распределении вы рассматривали бы три сигмы как выбросы. То есть 99,7% ваших объектов должны быть "нормальными". «Аномалия» используется гораздо более либерально. Если на вашем сайте внезапно появляются миллионы посетителей, это не редкие посетители. Однако внезапное увеличение посетителей все еще является «аномальным», тогда как каждый отдельный посетитель не является «посторонним».

Возможно, это было в этой статье, где я видел, как обсуждались эти различия, но я, к сожалению, не могу получить к ним доступ прямо сейчас.

Статистический анализ и сбор данных, том 5, выпуск 5, октябрь 2012 года, страницы 363–387 Обследование по обнаружению неконтролируемых выбросов в многомерных числовых данных


1
Я думаю, что вы тонко намекнули на разницу между выбросами и аномалиями; выбросы используются для описания данных, которые не соответствуют общей тенденции, аномалии описывают необычный трафик на сервере. 50% юк.
Клифф А.Б.

2

Просто для того, чтобы мутить воду дальше, в климатологической аномалии просто подразумевается разница между значением и средним значением или отклонение:

Термин температурная аномалия означает отклонение от контрольного значения или долгосрочного среднего значения. Положительная аномалия указывает, что наблюдаемая температура была выше, чем контрольное значение, в то время как отрицательная аномалия указывает, что наблюдаемая температура была ниже, чем контрольное значение.

см. например

Это вполне может рассматриваться как внешнее машинное обучение, но люди, интересующиеся этим вопросом, могут быть заинтересованы в этом.


1

(1,5)Yзнак равноИкс(1,1)(5,5)(3,3,1)Yзнак равноИкс

Аномалия может быть одной точкой данных, а также общей тенденцией или поведением, наблюдаемым в данных после того, как модель уже построена или сформировано понимание процесса генерирования данных. Вы сталкиваетесь с аномалиями, потому что система начинает вести себя по-другому, или вы ищете такие точки данных, потому что вы хотите получать информацию, когда происходит событие, во время которого ваша модель недействительна. Вы можете заботиться о наблюдении любого аномального поведения в амплитудах океанских волн не потому, что хотите отбросить эти точки данных и построить лучшую модель, а потому, что вы хотите знать, когда может произойти цунами.


2
Я не согласен с большей частью этого. Во-первых, первое предложение может быть вашим определением выброса, если вам нравится, но его трудно согласовать со многими другими определениями или использованиями. Если бы данные были (1, 1), (2, 2), (3, 3), (намного больше, намного больше), то гораздо большую точку часто можно охарактеризовать как выброс, но нет проблем с подбором модели. Вы можете (и должны) удивляться, почему данные поступают таким образом, но подобрать модель легко. В более общем смысле, принцип состоит в том, что выбросы могут быть отделены от основной части данных, но все же согласуются с вероятной моделью.
Ник Кокс

Во-вторых, если подразумевается, что исключение выбросов - это то, что вам следует делать, то (а) часто проблематично даже сказать, какие выбросы есть (б) есть много других решений. Поток stats.stackexchange.com/questions/78063/… более широк, чем его заголовок, чтобы упомянуть несколько.
Ник Кокс

1
Если вы перейдете по моей ссылке, то увидите, что я уже довольно подробно писал о выбросах. У меня нет никакого смысла перечитывать ваш ответ, который вы думаете ретроспективно, поскольку вы, кажется, говорите об удалении выбросов во время подгонки. Перечитывая, я также отмечаю, что первое предложение вашего второго абзаца включает идею о том, что аномалия может быть «общей тенденцией или поведением», что вряд ли будет тем, что вы имеете в виду - или, если это так, я не знаю » Я не понимаю этого.
Ник Кокс

1

Хороший вопрос. Тем не менее, поиск в Google по «разнице между выбросами и сайтом аномалий: .edu» показывает, что между этими двумя терминами нет теоретической разницы. Они используются взаимозаменяемо в литературе.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.