Как отмечают Джимми Лин и Крис Дайер в первой главе своей книги, посвященной интеллектуальному анализу текста с помощью MapReduce , при больших масштабах данных производительность различных алгоритмов сходится так, что различия в производительности практически исчезают. Это означает, что при достаточно большом наборе данных алгоритм, который вы хотите использовать, является вычислительно менее затратным в вычислительном отношении. Разница в производительности между алгоритмами имеет значение только при меньших масштабах данных.
Тем не менее, их книга (ссылка выше) и « Добыча массивных наборов данных » Ананда Раджарамана, Юре Лесковца и Джеффри Д. Уллмана, вероятно, две книги, которые вы тоже захотите проверить, тем более что они непосредственно связаны с MapReduce. для целей интеллектуального анализа данных.