Как можно автоматически разделить изображение отсканированной страницы на слова, похожие на reCaptcha?

-1

У меня есть изображение страницы из книги, и я хочу разделить ее на отдельные маленькие обрезанные слова. Есть способ сделать это?

image-processing

— webmagnets
источник

Вы говорите об оптическом распознавании символов, как вы отметили это, или разбиваете изображение на отдельные слова?

— fixer1234

Разделение изображения на отдельные изображения слов. Не знал, что пометить.

— webmagnets

Предполагая, что строки расположены на одинаковом расстоянии, вы можете автоматизировать разбиение каждой строки, возможно, используя обычное программное обеспечение для обработки изображений, которое выполняет пакетные операции (я думаю, Irfanview, но вы не указываете свою ОС). Разделять каждое слово сложнее. Вы могли бы сделать что-то вроде копирования страницы в слой и использовать фильтр, чтобы сильно размывать слова до точки, где они являются темными каплями. Затем выберите на основе цветовой гаммы, которая включает в себя слово blob, но не светлые промежутки между ними. Примените выделение к исходному слою. Не уверен, как сохранить каждый файл в отдельный файл.

— fixer1234

Установите мобильный сканер документов на свой мобильный. Вы можете захватить нужную страницу с помощью камеры мобильного устройства. Мобильный сканер распознает вас и получит текст для вас. Вы можете редактировать текст и сохранить его. Как вы думаете, это нормально для вас?

— Johnson15
источник

Если бы вы прочитали комментарии к вопросу, вы бы заметили, что OP означает не OCR, а нарезку изображения на маленькие кусочки (каждый из которых содержит слово). Таким образом, ваше решение не применимо.

— zagrimsan