Фильтрация своего рода «полутонового» изображения для обработки распознавания

10

У меня есть отсканированный PDF-материал, к которому я хочу добавить скрытый текстовый слой, чтобы я мог проиндексировать документ. Я использовал устройство вывода черного и белого tiff ghostscript (tiffg4) для извлечения страниц в виде изображений tiff, и вот пример того, как они выглядят:

введите описание изображения здесь

Обработка этого изображения с помощью тессеракта не дает хороших результатов.
Изменение выходного разрешения ghostscript DPI (600, 300, 150, 96) показывает, что изображение с разрешением 96 DPI дает лучший результат от тессеракта, но все еще не является удовлетворительным.

Теперь я подумал спросить совета, какой фильтр улучшит это изображение для обработки распознавания.

Я мог бы использовать imagemagick, или numpy / scipy / ndimage

image-processing ocr

— zetah
источник

9

Что вам действительно нужно, так это морфологическая операция, такая как дилатация с последующей эрозией. Это называется закрывающей операцией . Может быть, в вашем случае - просто расширение может быть хорошим.

Ранее был задан похожий вопрос, который может помочь с другими аспектами.

преобразование монохромного (1-битного черно-белого) изображения

Как восстановить текст из изображения, используя только морфологические операции?

— Дипан Мехта
источник

2

Вы можете удалить это, используя фильтр нижних частот. это либо делается в частотном пространстве, либо просто берется (разница) гауссиана изображения.

— Кристоф Раквиц
источник