В чем разница между Outlier и Anomaly в контексте машинного обучения. Я понимаю, что оба они относятся к одному и тому же.
В чем разница между Outlier и Anomaly в контексте машинного обучения. Я понимаю, что оба они относятся к одному и тому же.
Ответы:
Два термина являются синонимами в соответствии с:
Aggarwal, Charu C. Анализ выбросов. Springer New York, 2017, doi: http://dx.doi.org/10.1007/978-3-319-47578-3_1
Цитата со страницы 1:
Выбросы также упоминаются как отклонения, несоответствия, отклонения или аномалии в литературе по анализу данных и статистике.
Жирный текст не является частью исходного текста.
Бесплатно скачать PDF книги доступны от автора здесь.
Неприличный ответ:
Выброс: значение, которое вы предсказуемо находите в своих данных и которое указывает на то, что ваша модель не работает должным образом
Аномалия: значение, которое, несмотря на все шансы, обнаруженные в ваших данных, указывает на то, что ваша модель работает правильно
Более серьезный, менее загадочный ответ:
Концепция выбросов начинается с вопроса построения модели, которая делает предположения о данных. Выбросы часто являются признаками того, что модель не описывает данные должным образом, и поэтому мы должны ставить под сомнение результаты нашей модели или качество наших данных.
Концепция аномалий начинается за пределами теоретического мира и внутри прикладного мира: мы хотим искать в наших данных необычное поведение, иногда мотивируемое тем фактом, что мы заинтересованы в поиске поведения, которое кто-то пытается скрыть (например, вирус в Эл. адрес). Проблема в том, что, поскольку люди пытаются скрыть, что они делают, мы не знаем, что искать. Поэтому мы берем набор «хороших» данных и решаем, что все, что мы находим в нашем новом наборе данных, который не выглядит «хорошим», является аномалией и стоит нашего времени, чтобы проверить более подробно. Часто поиск аномалий означает поиск выбросов в вашем новом наборе данных. Но обратите внимание, что эти значения могут быть очень распространены в вашем новом наборе данных, несмотря на то, что они редки в вашем старом наборе данных!
Таким образом, эти две концепции очень похожи с точки зрения статистики, стоящей за ними (то есть необычных значений для вашей подобранной модели), но приходят к идее с разных точек зрения. Кроме того, когда мы говорим о выбросах, мы обычно подразумеваем необычную точку данных в данных, используемых для соответствия нашей модели , где аномалия обычно подразумевается как необычная точка данных в наборе данных за пределами данных, используемых для соответствия нашей модели .
Примечание: этот ответ основан на том, что я видел часто используемые два термина, а не формальные определения. Пользовательский опыт может отличаться.
Аномалия - это результат, который невозможно объяснить с учетом базового распределения (это невозможно, если наши предположения верны). Выброс - маловероятное событие, учитывая базовое распределение (невероятность).
Термины в основном используются взаимозаменяемо. «Выражение» относится к чему-то, лежащему вне нормы, поэтому оно является «аномальным». Но у меня есть предположение, что «выброс» обычно используется для очень редких наблюдений. В статистике при нормальном распределении вы рассматривали бы три сигмы как выбросы. То есть 99,7% ваших объектов должны быть "нормальными". «Аномалия» используется гораздо более либерально. Если на вашем сайте внезапно появляются миллионы посетителей, это не редкие посетители. Однако внезапное увеличение посетителей все еще является «аномальным», тогда как каждый отдельный посетитель не является «посторонним».
Возможно, это было в этой статье, где я видел, как обсуждались эти различия, но я, к сожалению, не могу получить к ним доступ прямо сейчас.
Статистический анализ и сбор данных, том 5, выпуск 5, октябрь 2012 года, страницы 363–387 Обследование по обнаружению неконтролируемых выбросов в многомерных числовых данных
Просто для того, чтобы мутить воду дальше, в климатологической аномалии просто подразумевается разница между значением и средним значением или отклонение:
Термин температурная аномалия означает отклонение от контрольного значения или долгосрочного среднего значения. Положительная аномалия указывает, что наблюдаемая температура была выше, чем контрольное значение, в то время как отрицательная аномалия указывает, что наблюдаемая температура была ниже, чем контрольное значение.
Это вполне может рассматриваться как внешнее машинное обучение, но люди, интересующиеся этим вопросом, могут быть заинтересованы в этом.
Аномалия может быть одной точкой данных, а также общей тенденцией или поведением, наблюдаемым в данных после того, как модель уже построена или сформировано понимание процесса генерирования данных. Вы сталкиваетесь с аномалиями, потому что система начинает вести себя по-другому, или вы ищете такие точки данных, потому что вы хотите получать информацию, когда происходит событие, во время которого ваша модель недействительна. Вы можете заботиться о наблюдении любого аномального поведения в амплитудах океанских волн не потому, что хотите отбросить эти точки данных и построить лучшую модель, а потому, что вы хотите знать, когда может произойти цунами.