Я пытаюсь настроить инфраструктуру больших данных, используя Hadoop, Hive, Elastic Search (среди прочих), и я хотел бы запустить некоторые алгоритмы для определенных наборов данных. Мне бы хотелось, чтобы сами алгоритмы были масштабируемыми, поэтому это исключает использование таких инструментов, как Weka, R или даже RHadoop. Библиотека Apache Mahout , по-видимому, является хорошим вариантом и содержит алгоритмы для задач регрессии и кластеризации .
То, что я изо всех сил пытаюсь найти, является решением для обнаружения аномалий или выбросов.
Поскольку Mahout имеет скрытые марковские модели и различные методы кластеризации (включая K-средние), мне было интересно, можно ли построить модель для обнаружения выбросов во временных рядах, используя любое из этого. Я был бы признателен, если бы кто-то опытный в этом мог посоветовать мне
- если это возможно, и в случае, если это
- как это сделать, плюс
- оценка прилагаемых усилий и
- Точность / проблемы этого подхода.