У меня есть большой отсортированный файл с миллиардами строк переменной длины. Учитывая новую строку, я хотел бы знать, какой номер байта он получит, если он будет включен в отсортированный файл.
пример
a\n
c\n
d\n
f\n
g\n
Учитывая ввод 'foo', я бы получил вывод 9.
Это легко сделать, просто просматривая весь файл, но, будучи миллиардами строк переменной длины, было бы быстрее выполнить бинарный поиск.
Такой инструмент обработки текста уже существует?
Редактировать:
Это делает сейчас: https://gitlab.com/ole.tange/tangetools/blob/master/bsearch/bsearch