Масштабируемый выброс / обнаружение аномалий


10

Я пытаюсь настроить инфраструктуру больших данных, используя Hadoop, Hive, Elastic Search (среди прочих), и я хотел бы запустить некоторые алгоритмы для определенных наборов данных. Мне бы хотелось, чтобы сами алгоритмы были масштабируемыми, поэтому это исключает использование таких инструментов, как Weka, R или даже RHadoop. Библиотека Apache Mahout , по-видимому, является хорошим вариантом и содержит алгоритмы для задач регрессии и кластеризации .

То, что я изо всех сил пытаюсь найти, является решением для обнаружения аномалий или выбросов.

Поскольку Mahout имеет скрытые марковские модели и различные методы кластеризации (включая K-средние), мне было интересно, можно ли построить модель для обнаружения выбросов во временных рядах, используя любое из этого. Я был бы признателен, если бы кто-то опытный в этом мог посоветовать мне

  1. если это возможно, и в случае, если это
  2. как это сделать, плюс
  3. оценка прилагаемых усилий и
  4. Точность / проблемы этого подхода.

1
Это слишком расплывчато, чтобы ответить. Временные ряды слишком разные, чтобы просто бросить на них k-средних и получить что-нибудь полезное. Это сильно зависит от ваших данных.
Выйти - Anony-Mousse

1
Для обнаружения выбросов взгляните на алгоритмы в ELKI. Это, кажется, самая полная коллекция обнаружения выбросов.
ВЫЙТИ - Anony-Mousse

В более новые версии Elasticsearch встроено обнаружение аномалий временных рядов (я думаю, вам придется купить X-Pack). Я не уверен, какие алгоритмы они используют, но, возможно, стоит изучить готовое решение.
Том

Ответы:


7

Как t-дайджест сравнивается с алгоритмом p-квадрата?
Дэвид Маркс

Спасибо за ответ: это простая модель для вычисления экстремальных квантилей, и я думаю, что она будет соответствовать моим потребностям. Однако для более сложных временных рядов, которые не имеют почти стационарного распределения, этот подход может потерпеть неудачу, и именно тогда я думаю, что нам понадобится что-то адаптивное, такое как цепь Маркова.
двухбайтовое

0

Вы можете сослаться на мой ответ, связанный с h2o R или методом обнаружения аномалий Python в stackexchange , поскольку он также масштабируемый.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.