Некоторые PDF-файлы создают мусор (« mojibake ») при копировании текста (даже если они отображаются нормально). Это делает невозможным их поиск (все, что вы ищете, не будет соответствовать мусору).
У кого-нибудь есть легкий обходной путь?
Примеры:
- Руководство по TEAC TV EU2816STF (дает вышеупомянутые проблемы в Adobe Reader как на Windows, так и на Mac, но отлично работает в Preview на Mac)
- Руководство по Leadtek Winfast PVR2 (FTP-ссылка; также есть проблемы с предварительным просмотром на Mac)
- Руководство к ТВ-тюнеру Swann (FTP-связь; также есть проблемы с предварительным просмотром на Mac)
- Лицензионное соглашение Phonedisc (от ныне не существующей DTMS )
- Ежеквартальный обзор фонда Macquarie IFP
- Буклет BAN-TACS для малого бизнеса (в архиве)
- Флаер Easterfest 2004 (также из архива)
Я использую Adobe Reader (последняя версия) для Windows - может быть, вам поможет альтернативный просмотрщик? Я ищу бесплатное решение для Windows. С открытым исходным кодом было бы еще лучше.
Редактировать: Документы для инструмента Multivalent Extract Text содержат хорошее резюме того, почему что-то может пойти не так, включая: (цитируемый документ, последний раз измененный январь 2006 г.)
- Текст может не иметь отображения Unicode. Шрифты PDF Type 3 часто отсутствуют, а в TeX DVI есть символы, которые не имеют эквивалентов Unicode.
- Кодировка Unicode может содержать ошибки. Open Office отображает некоторые символы в один и тот же Unicode, что приводит к падению букв удваивания и удвоению.
Я полагаю, что окончательным решением в этих случаях было бы распознавание каждого символа в шрифте, чтобы выяснить, что это за символ на самом деле. Обратите внимание, что это будет проще, чем распознавание документов с шумным сканированием, потому что доступна точная форма глифа (с бесконечным разрешением, поскольку это «векторное» изображение).
clipbrd.exe
(см. Mydigitallife.info/2008/11/06/… ) вы можете увидеть, что находится в буфере обмена. Что это дает вам?