Какие существуют полезные алгоритмы, которые работают с огромными потоками данных, и их результаты довольно малы, и можно вычислить результат для смеси двух потоков, каким-то образом объединив их результаты?
Я могу назвать несколько:
- Очевидные вещи, как сумма, мин, макс, кол, топ-К и т. Д
- Приближенные так называемые «основанные на эскизах» потоковые алгоритмы для гистограмм, подсчета различных элементов или вычисления квантилей
Какие еще есть?
(Мне интересно, потому что я пишу хобби-проект для мониторинга распределенных систем, полезность которого напрямую определяется полезностью таких алгоритмов)