Удаление нетекстового текста из отсканированного файла OCRd PDF

У меня есть PDF, созданный из отсканированного документа. OCR был использован для распознавания текста. В Acrobat, если я выделю текст и нажму «копировать с форматированием», я могу вставить форматированный текст в Word, поэтому кажется, что шрифты и цвета также встроены в документ в дополнение к обычному тексту и, возможно, к размеру.

Есть ли способ использовать эту информацию для создания PDF, который просто содержит отформатированный текст OCRd, без отсканированного изображения. В настоящее время мой документ показывает только отсканированное изображение, а текст находится на невидимом слое. Я хотел бы создать PDF-документ, который удаляет отсканированное изображение и отображает форматированный текст, который в данный момент скрыт.

В следующем посте есть раздел «Как мы можем сделать невидимый текст видимым?» PDF имеет дополнительный пробел во всех словах после запуска через Ghostscript

Однако выполнение этого не показывает правильное форматирование текста (которое сохраняется при вставке в Word), и я также хотел бы удалить отсканированное изображение, чтобы в окончательном PDF-файле содержались только отформатированные (цвет, шрифт, размер) векторные шрифты и нет изображений.

pdf ocr

— Даниэль С.
источник

-3

Все ли сейчас делают все трудным путем, потому что программы сложнее, чем нужно? Я прочитал, что все готово, вы овладели полным контролем отсканированного текстового изображения, за исключением небольшого переформатирования.

Весь вопрос я просто не понимаю. Когда мы опознаем здесь самое простое бесплатное программное обеспечение, которое поставляется со сканером, оно может дать мне 3 простых вещи.

Текст , необработанный текст, как я хотел больше всего, без форматирования, без цветов, без многократного переноса слов, это всего лишь «код» для тех букв, которые он видел. Это не должно быть перепечатано и повторно проверено по буквам. Этот текст может быть повторно обработан и переформатирован, изменен в размере, изменен в цвете. Человек просто счастлив, что не должен перепечатывать его. Это очень изменяемый и крошечный, это просто код для символов.

Программное обеспечение OCR, которое помещает пробелы между всеми буквами, должно быть либо перенастроено, либо выброшено. Если оно помещает пробелы там, где они существуют, то так оно и будет существовать снова. Пропустите, что я оставляю их. Может быть, немного reKerning (собирая буквы вместе) в программе Word / PDF, чтобы сжать его.
Форматированный текст отформатирован по столбцам, помечен абзацами, обернут и может быть окрашен или изменен в размерах, но это легко изменить. Этот выбор OCR полезен для того, чтобы отбросить его заранее отформатированным и повторно распечатать / использовать как есть . это все еще очень маленький размер, без графики или изображений. ЕСЛИ я использую отформатированный текст и хочу переформатировать его для другого макета / форматирования, я мог бы также просто OCRed только текст (1), использовать текст RAW и быстро перетекать, переформатировать его и повторно раскрасил это.
Графический объект , вещи, которые невозможно распознать, поскольку он не может распознать буквы, это может быть вся страница или части страницы, например подпись, или некоторые испорченные области, или элементы изображения.

Этот отсканированный раздел можно использовать с (1) или (2), чтобы либо вручную поместить графику обратно в переформатированные документы, либо просто вставить ее в отформатированную область. Если «графический» или фоновый шум на странице не требуется, тогда программное обеспечение OCR настроено на выполнение только (1) или (2), что OCR делает лучше всего. (1) выяснить, что текст, и игнорировать все остальное. Или (2) изобразите текст, форматирование и макет текста.

Это (3) изображение не может попасть в «буфер копирования» стандартного содержимого Windows одновременно с необработанным текстом или форматированным текстом для обычной межпрограммной вставки копии. Это не просто текст или просто RTF, это не просто картинка, это грязная комбинация. Это может быть копировальная паста «специальные данные».

Он может быть распечатан из программного обеспечения OCR, или «печать» в формате PDF может быть сделана из программного обеспечения OCR (где он все еще собирается). В основном, буфер копирования компьютера / программ может выполнять (1) текст, может (2) текст с форматированием. Но чтобы сделать изображение и Rich Text также, разве это «смешивание данных» для других программ, чтобы распознать его?

Выбор текста ТОЛЬКО в документе PDF, содержащем текст, приведет к перемещению текста в буфер копирования и вставки. Вы можете вставить этот текст во что угодно, и уже можете изменить любой интервал или абзац и табуляцию в программе Wurd.

PDF может быть только текстом, текстом с форматированием, текстом и изображением, и он может быть разделен одним быстрым движением, если он не защищен. Копировать вставить. Вставьте только текст (вы уже смогли вставить в Word) в PDF и сделайте простой текстовый PDF.

ЕСЛИ это векторный (точки и кривые) контур текста? Невидимый, чья это гениальная идея, чтобы это было доступно при выполнении таких простых вещей? Некоторый программист, который не может оставить достаточно хорошо в одиночестве. Он должен был бы быть повторно OCRed, это больше не сырой текстовый код. Вы не можете скопировать Вставить векторный текст / графику как текстовые символы.

С помощью векторов в Photoshop вы можете изменить его стилизацию, согнуть его, чтобы подогнать его по размеру, это векторы, а не текстовые символы, которые очень трудно повторно перетекать или переформатировать сейчас. Размер резко увеличивается, если это векторы.

Если он растеризован (он стал изображением вместо векторов), который как бы завершает контур, то не «обводит» векторный контур и не стилизует его. Превращение его в «рисунок / графику» снова вместо текста в формате RTF или векторов блокирует легкость перемещения, переупаковки, переформатирования. Размер будет самым большим размером после растеризации.

И если у вас возникнут проблемы с передачей его в PDF или WORD, то они собираются перекодировать PDF, поэтому вы задаете вопрос, и я смотрю на него, думая:

Ты понял
у вас есть большой контроль над этим, больше, чем нужно
Вы могли сделать что-нибудь с этим что-нибудь
как вы могли быть потеряны, вы освоили преобразование его
у вас есть и фотографии, и текст
Вы смогли скопировать вставить текст
у тебя все есть

_{Это было отредактировано, так как комментарии были отправлены.}

— Psycogeek
источник

Я не сканировал документы, поэтому у меня нет доступа к этим трем вариантам. Они были отсканированы службой 1DollarScan ( 1dollarscan.com ), и я не уверен, какие у них были варианты, но теперь у меня есть документы PDF, и я хотел бы иметь возможность извлечь отформатированный текст, чтобы документы занимали меньше комната (некоторые из них составляют сотни мегабайт), и поэтому я могу читать их на Kindle (который может отображать изображения в формате PDF, но я бы предпочел текст, чтобы мне не приходилось увеличивать и прокручивать PDF).

— Даниэль С.

Но опять же ваш вопрос указывает, что у вас есть это? что мне не хватает? скопируйте текст из PDF, используя выделение текста, и вставьте его в самый нижний блокнот. а что ты видишь? У меня есть наручные часы, которые могут читать то, что вы описали в вопросе, я не понимаю, как вы не можете получить его в читателях за 300 долларов ???

— Psycogeek

Я хочу сохранить форматирование. Альтернативный вариант - я могу сохранить как в Word, который сохраняет форматирование. Однако, если возможно удалить изображения из PDF и сохранить отформатированный текст, я хотел бы сравнить этот метод с сохранением в формате Word, чтобы увидеть, дают ли они оба одинаковое качество вывода. Мне также любопытно, есть ли утилита, которая могла бы сделать это, поскольку я могла бы использовать это для других изменений PDF.

— Даниэль С.

Хорошо, я понял, что читаю еще одну ветвь :-). Таким образом, реальный вопрос, может быть, что-то вроде: «Как я могу написать сценарий удаления отсканированного графического изображения, сохранить форматирование текстового слоя OCR, Un-hide текст OCR и раскрасить по желанию». или Как я могу сжать этот двойной PDF-файл со слоем отсканированного изображения и текста, чтобы он не был так

— масштабно измерен

Я разместил эту ссылку, поскольку у нее была отправная точка для отображения текста. Я не проверил все детали в посте. Это правильный способ перефразировать мой вопрос: «Как я могу написать сценарий удаления отсканированного графического изображения ...» Что касается способов сжатия файла, я попробовал некоторые, и они пожертвовали слишком большим качеством, что и привело к мне думать о том, как сохранить только шрифты в векторном формате.

— Даниэль С.