Масштабируемый выброс / обнаружение аномалий

10

Я пытаюсь настроить инфраструктуру больших данных, используя Hadoop, Hive, Elastic Search (среди прочих), и я хотел бы запустить некоторые алгоритмы для определенных наборов данных. Мне бы хотелось, чтобы сами алгоритмы были масштабируемыми, поэтому это исключает использование таких инструментов, как Weka, R или даже RHadoop. Библиотека Apache Mahout , по-видимому, является хорошим вариантом и содержит алгоритмы для задач регрессии и кластеризации .

То, что я изо всех сил пытаюсь найти, является решением для обнаружения аномалий или выбросов.

Поскольку Mahout имеет скрытые марковские модели и различные методы кластеризации (включая K-средние), мне было интересно, можно ли построить модель для обнаружения выбросов во временных рядах, используя любое из этого. Я был бы признателен, если бы кто-то опытный в этом мог посоветовать мне

если это возможно, и в случае, если это
как это сделать, плюс
оценка прилагаемых усилий и
Точность / проблемы этого подхода.

— doublebyte
источник

1

Это слишком расплывчато, чтобы ответить. Временные ряды слишком разные, чтобы просто бросить на них k-средних и получить что-нибудь полезное. Это сильно зависит от ваших данных.

— Выйти - Anony-Mousse

1

Для обнаружения выбросов взгляните на алгоритмы в ELKI. Это, кажется, самая полная коллекция обнаружения выбросов.

— ВЫЙТИ - Anony-Mousse

В более новые версии Elasticsearch встроено обнаружение аномалий временных рядов (я думаю, вам придется купить X-Pack). Я не уверен, какие алгоритмы они используют, но, возможно, стоит изучить готовое решение.

— Том

7

Я бы взглянул на алгоритм t-digest . Он был объединен с mahout, а также частью некоторых других библиотек для потоковой передачи больших данных. Подробнее об этом алгоритме и об обнаружении аномалий больших данных можно узнать в следующих источниках:

— prudenko
источник

Как t-дайджест сравнивается с алгоритмом p-квадрата?

— Дэвид Маркс

Спасибо за ответ: это простая модель для вычисления экстремальных квантилей, и я думаю, что она будет соответствовать моим потребностям. Однако для более сложных временных рядов, которые не имеют почти стационарного распределения, этот подход может потерпеть неудачу, и именно тогда я думаю, что нам понадобится что-то адаптивное, такое как цепь Маркова.

— двухбайтовое

0

Вы можете сослаться на мой ответ, связанный с h2o R или методом обнаружения аномалий Python в stackexchange , поскольку он также масштабируемый.

— 0xF
источник