Все ли сейчас делают все трудным путем, потому что программы сложнее, чем нужно? Я прочитал, что все готово, вы овладели полным контролем отсканированного текстового изображения, за исключением небольшого переформатирования.
Весь вопрос я просто не понимаю. Когда мы опознаем здесь самое простое бесплатное программное обеспечение, которое поставляется со сканером, оно может дать мне 3 простых вещи.
Текст , необработанный текст, как я хотел больше всего, без форматирования, без цветов, без многократного переноса слов, это всего лишь «код» для тех букв, которые он видел. Это не должно быть перепечатано и повторно проверено по буквам. Этот текст может быть повторно обработан и переформатирован, изменен в размере, изменен в цвете. Человек просто счастлив, что не должен перепечатывать его. Это очень изменяемый и крошечный, это просто код для символов.
Программное обеспечение OCR, которое помещает пробелы между всеми буквами, должно быть либо перенастроено, либо выброшено. Если оно помещает пробелы там, где они существуют, то так оно и будет существовать снова. Пропустите, что я оставляю их. Может быть, немного reKerning (собирая буквы вместе) в программе Word / PDF, чтобы сжать его.
Форматированный текст отформатирован по столбцам, помечен абзацами, обернут и может быть окрашен или изменен в размерах, но это легко изменить. Этот выбор OCR полезен для того, чтобы отбросить его заранее отформатированным и повторно распечатать / использовать как есть . это все еще очень маленький размер, без графики или изображений. ЕСЛИ я использую отформатированный текст и хочу переформатировать его для другого макета / форматирования, я мог бы также просто OCRed только текст (1), использовать текст RAW и быстро перетекать, переформатировать его и повторно раскрасил это.
Графический объект , вещи, которые невозможно распознать, поскольку он не может распознать буквы, это может быть вся страница или части страницы, например подпись, или некоторые испорченные области, или элементы изображения.
Этот отсканированный раздел можно использовать с (1) или (2), чтобы либо вручную поместить графику обратно в переформатированные документы, либо просто вставить ее в отформатированную область. Если «графический» или фоновый шум на странице не требуется, тогда программное обеспечение OCR настроено на выполнение только (1) или (2), что OCR делает лучше всего. (1) выяснить, что текст, и игнорировать все остальное. Или (2) изобразите текст, форматирование и макет текста.
Это (3) изображение не может попасть в «буфер копирования» стандартного содержимого Windows одновременно с необработанным текстом или форматированным текстом для обычной межпрограммной вставки копии. Это не просто текст или просто RTF, это не просто картинка, это грязная комбинация. Это может быть копировальная паста «специальные данные».
Он может быть распечатан из программного обеспечения OCR, или «печать» в формате PDF может быть сделана из программного обеспечения OCR (где он все еще собирается). В основном, буфер копирования компьютера / программ может выполнять (1) текст, может (2) текст с форматированием. Но чтобы сделать изображение и Rich Text также, разве это «смешивание данных» для других программ, чтобы распознать его?
Выбор текста ТОЛЬКО в документе PDF, содержащем текст, приведет к перемещению текста в буфер копирования и вставки. Вы можете вставить этот текст во что угодно, и уже можете изменить любой интервал или абзац и табуляцию в программе Wurd.
PDF может быть только текстом, текстом с форматированием, текстом и изображением, и он может быть разделен одним быстрым движением, если он не защищен. Копировать вставить. Вставьте только текст (вы уже смогли вставить в Word) в PDF и сделайте простой текстовый PDF.
ЕСЛИ это векторный (точки и кривые) контур текста? Невидимый, чья это гениальная идея, чтобы это было доступно при выполнении таких простых вещей? Некоторый программист, который не может оставить достаточно хорошо в одиночестве. Он должен был бы быть повторно OCRed, это больше не сырой текстовый код. Вы не можете скопировать Вставить векторный текст / графику как текстовые символы.
С помощью векторов в Photoshop вы можете изменить его стилизацию, согнуть его, чтобы подогнать его по размеру, это векторы, а не текстовые символы, которые очень трудно повторно перетекать или переформатировать сейчас. Размер резко увеличивается, если это векторы.
Если он растеризован (он стал изображением вместо векторов), который как бы завершает контур, то не «обводит» векторный контур и не стилизует его. Превращение его в «рисунок / графику» снова вместо текста в формате RTF или векторов блокирует легкость перемещения, переупаковки, переформатирования. Размер будет самым большим размером после растеризации.
И если у вас возникнут проблемы с передачей его в PDF или WORD, то они собираются перекодировать PDF, поэтому вы задаете вопрос, и я смотрю на него, думая:
- Ты понял
- у вас есть большой контроль над этим, больше, чем нужно
- Вы могли сделать что-нибудь с этим что-нибудь
- как вы могли быть потеряны, вы освоили преобразование его
- у вас есть и фотографии, и текст
- Вы смогли скопировать вставить текст
- у тебя все есть
Это было отредактировано, так как комментарии были отправлены.