Я работаю над приложением, которое требует создания очень большой базы данных n-грамм, которые существуют в большом текстовом корпусе.
Мне нужны три эффективных типа операций: поиск и вставка, проиндексированные самой n-граммой, и запрос всех n-граммов, которые содержат вложенную n-грамм.
Для меня это звучит так, будто база данных должна быть гигантским деревом документов, а базы данных документов, например Mongo, должны уметь хорошо выполнять эту работу, но я никогда не использовал их в масштабе.
Зная формат вопросов Stack Exchange, я хотел бы уточнить, что я не прошу предложений по конкретным технологиям, а скорее представляю собой базу данных, которую я должен искать для реализации чего-то подобного в масштабе.