У меня есть несколько тысяч страниц отсканированных страниц книг. Каждая страница сохраняется отдельно в формате JPG. Письменность понятна, но шрифты различаются, и на страницах есть картинки и иллюстрации.
Мне нужно создать список всех слов, появляющихся в каждом файле JPG. Существует ли инструмент командной строки для сканирования изображения с перечислением слов, которые появляются? Для этого не нужно совершенное сканирование, просто оценка.