Физический текст в цифровой текст


9

Позвольте мне сначала задать этот вопрос, я понятия не имею, какой сайт StackExchange будет наиболее подходящим для этого вопроса, но я подумал, что LifeHacks может работать ...

В 1998 году у моей мамы в семье было большое семейное воссоединение (у моей прабабушки было десять детей, так что это действительно было большое собрание). Для этого воссоединения один из моих далеких дядей написал своего рода книгу об истории наших семей, и моя мама дала мне книгу для чтения. Я не мог поверить, насколько он велик и сколько исследований ушло в книгу. Я хотел бы найти способ разместить всю книгу на веб-сайте, который я собираюсь сделать, где я смогу поделиться ею со всеми в нашей семье и в конечном итоге сохранить историю дольше, чем эта хрупкая книга.

В надежде, что мне не придется набирать слово в слово всю эту книгу на 300 страниц, есть ли способ, где я могу просто отсканировать страницы и получить их в цифровом тексте? Очевидно, что я мог бы просто сфотографировать и сделать сайт, используя картинки, но я чувствую, что было бы более полезно иметь его в качестве фактического текста, потому что тогда он может лучше отображаться в поиске Google, когда кто-то ищет имя члена семьи или что-то в этом роде. Кроме того, если кто-то в семье когда-нибудь сделает исследовательский проект по нашей семье, он сможет скопировать часть текста и ссылаться на него легче.

Так кто-нибудь знает, как я могу превратить эту старую семейную книгу в цифровой текст?

Первая страница книги

Книга с указанием толщины

Ответы:


14

Используйте телефон Android и функцию « Объектив Google », недавно добавленную в приложение для фотографий и обзор фотографий с камеры.

OCR через Google Lens довольно удивительный и точный за пределами любого программного обеспечения OCR, которое я когда-либо использовал.

Ниже приведены некоторые скриншоты, описывающие процедуру с использованием дешевого (100 долларов США) телефона Nokia 3, лучшего телефона, которым я пользовался с тех пор, как мой любимый Nexus 4 отказался от призрака.

Я подробно опишу образец сканирования с помощью оптического распознавания текста греческой книги по этиологии, напечатанной в 1976 году, которую я не осмелюсь разорвать на части при сканировании, которая, похоже, имеет одинаковую плотность символов и шрифт.

Я сделал это оригинальное изображение в условиях, которые не были идеальными при освещении, с использованием всех автоматических настроек на так называемой телефонной камере, не использовались специальные методы фотосъемки или приборы для улучшения результата, можно сказать, что это просто любопытно сделанный снимок с телефона Страница книги . (Просто убедитесь, что текст сфокусирован, никакое оптическое распознавание не расшифрует размытый несфокусированный текст)

введите описание изображения здесь

Нажмите на значок объектива Google, доступный через предварительный просмотр после фотосъемки, или на саму фотографию с помощью приложения Google photos.

введите описание изображения здесь

Вот -Skynet- ^M^M^M^M^M^MЯ имею в виду, что Google Lens делает свое волшебное сканирование (точки немного жуткие, но им нужно было что-то сделать, чтобы вы знали, что искусственный интеллект Google делает свое дело, я полагаю)

введите описание изображения здесь

После того, как изображение отсканировано, вы увидите, что текстовые области, которые Google Lens обнаружил на картинке, четко обведены, а их текст уже выделен в нижней половине экрана. если вам нужны только некоторые области, а не другие, просто коснитесь своего выбора, чтобы активировать / деактивировать их.

Если вы дотронетесь до извлеченного текста, он будет помещен в ваш буфер обмена для копирования / вставки в любом месте вашего телефона.

введите описание изображения здесь

После этого просто вставьте текст в документ Google документов. Там вы можете: - исправлять любые ошибки прямо здесь или на вашем компьютере, - делиться документом с содержанием вашего сердца, - публиковать его в виде веб-страницы с живым обновлением ваших правок или - экспортировать в обычный текст, - документ Word , - открыть офисный документ, - разжечь совместимую электронную книгу epub с переформатированием текста, или - добрый добрый не-DRMd PDF

Можно утверждать, что это, вероятно, самый короткий путь к публикации с максимально широким выбором выходных данных.

Вы можете сделать все это с одного устройства (Android-телефон с установленными соответствующими приложениями) и сделать это с высокой скоростью, в основном бесплатно.

Вот гугл вставил фрагмент документа
введите описание изображения здесь

Вот доля URL Google Docs, не стесняйтесь комментировать. Вы также можете попросить кого-нибудь помочь вам редактировать документ удаленно и одновременно.

https://docs.google.com/document/d/1aizUDOHerSraU3fIw6lHLabmLSNsQ7PMXOl1IHHE0RU/edit?usp=drivesdk

Наконец, вот сайт Сайтов Google, опубликованный с использованием вышеупомянутого документа в качестве связанного источника

https://sites.google.com/h-lo.me/ocrsample

Это https, для ПК и мобильных устройств, и в зависимости от вкуса, как правило, не болит глаз. Неплохо за 15 минут общей работы и никакого кодирования.


Осталось одно уточнение, а именно создание надлежащих абзацев в документе Google, поскольку линза Google вставляет жесткий возврат после каждой строки извлеченного текста, что делает каждую строку отдельным абзацем, и это станет проблемой, если вы захотите использовать Функции Документов Google, такие как оглавление , или когда вы экспортируете свой документ в электронную книгу, совместимую с электронной почтой, (испортит текст)

Вы можете просто присоединиться к каждой строке, где это уместно, нажав клавишу Backspace в начале каждой строки, или это можно автоматизировать с помощью скрипта.

Итак, я пишу дополнение к сценарию приложения, которое вскоре опубликую, чтобы автоматизировать этот процесс. Я дам вам знать, когда это будет сделано.


Отличная деталь Мне нравится это бесплатное решение. Спасибо!
Кайл Бриденстайн

С удовольствием! Возможно, у вас уже есть все, что вам нужно! :)
hlecuanda

Для толстой книги это действительно трудоемкий подход: вы должны вручную перевернуть каждую страницу, а затем сфотографировать ее.
Гоббс

6

Вы можете сделать это поэтапно. Начните с размещения всего в Интернете, как сканирования страниц и обновления, как и когда вы можете. Скрепление пластиковой расчески cerlox ™ облегчает его разборку и повторную укладку.

Поскольку печать выглядит обычным шрифтом с засечками того же размера, отсканированные изображения можно оцифровать с помощью программного обеспечения оптического распознавания символов. OCR может предоставить вам черновой текстовый файл, который вы можете вычитать и опубликовать на веб-сайте для окончательной формы.

В то же время вы можете привести в порядок фотографии и другие графические материалы.

Вы можете сделать это, когда для проекта станет доступно время / ресурсы.


Аналогично предыдущему ответу, но не так подробно.
Траян Эспелиен

@TrajanEspelien Какой предыдущий ответ? Проверьте метку времени. Ответ был первым, за два дня до представления hiecuanda. :)
Stan

Да, но в нем не так много деталей, как в другом ответе, поэтому я принял другой из-за этого. Это не первый пришел первый сервер .. это лучший ответ.
Кайл Бриденстайн

@KyleBridenstine Не шучу! Я тоже проголосовал за Гиекуанду. Это был отличный ответ. Кстати, что, если у вас не было телефона Android или вы не можете получить доступ к Glass? Я дал общий ответ на вопрос. :)
Stan

1
@KyleBridenstine Спасибо за добрые слова. Мы согласны. Я думаю, что вы правильно сделали, подождав. Первый ответ не лучше (если это не по какой - то причине. Есть сроки, в конце концов.) Я послал ссылку на ваш вопрос и большой ответ hiecuanda к коллеге , который должен сделать то же самое с огромной кучей школьных записей из Бразилия!
Стэн

2

Некоторые хорошие ответы здесь для того, чтобы приблизиться к этому непосредственно.

Я хотел бы добавить свой опыт оплаты кого-то еще, чтобы сделать это для вас.

Я использовал Digitize My Books в Великобритании (я сам в Великобритании).

Я был очень доволен результатами: каждая книга возвращается в формате PDF с текстом для поиска (и копирования). Используется стандартная техника PDF, при которой исходное изображение для каждой страницы сохраняется, но с наложением текста, так что вы можете выделить исходный текст на странице. Очень хорошая ценность. Как кто-то за границей из Великобритании, вы все равно можете отправить им книги.

Они также предлагают вариант для книги в редактируемом формате текстового документа, за дополнительную, но очень разумную стоимость.

Если вам не требуется возвращать оригинал, то самым дешевым вариантом будет выбор деструктивного сканирования. Здесь страницы берутся по отдельности из книги и сканируются. По умолчанию оригинальная книга не возвращается, хотя я полагаю, что вы можете запросить ее, возможно, за дополнительную плату (например, для обратной пересылки), но страницы будут потеряны, поскольку будут удалены для отдельного сканирования. Разрушающее сканирование - это вариант, который я выбрал для всех своих книг, и я не требовал возврата оригиналов.

Они также предлагают неразрушающее копирование, если вам требуется оригинал, но стоимость выше. Они также принимают ваши собственные цифровые сканы, если вы уже отсканировали книгу сами - они могут превратить это в документ PDF или Word с возможностью поиска, способный копировать.

Посмотрите вокруг их веб-сайта. Я действительно думаю, что это лучший вариант: тратить деньги, чтобы сэкономить время, а не тратить время, чтобы сэкономить деньги.

Я не работаю в Digitize My Books и не имею к ним никакого финансового интереса (акционер или нет).

Первоначально я начал «сканировать» в книгах сам, фотографируя с помощью зеркальной камеры (фотографирование быстрее, чем планшетное сканирование), при этом каждая страница открывалась с помощью буфера обмена и blu-tak. Но я нашел это довольно трудоемким.

Если вы все еще хотите сделать это самостоятельно, ScanTailor - это Windows-приложение с открытым исходным кодом, которое будет форматировать, разбивать двойные страницы / пары страниц при сканировании на отдельные страницы, выпрямлять и «разглаживать» их. Таким образом, получающиеся страницы выглядят плоскими и прямыми, как это требуется, однако это не делает OCR: результаты по-прежнему растровые изображения. Но, по крайней мере, это дает некоторый способ автоматизировать пакетную обработку любых искажений страниц, особенно неразрушающего копирования, когда трудно расположить страницы полностью плоскими для больших книг.

обновленный

Добавлена ​​дополнительная информация о параметрах сканирования, предлагаемых сервисом. ScanTailor дополнительная информация. Грамматические исправления.


1

Самый быстрый способ сделать это - связаться с вашим родственником и посмотреть, есть ли у него оригинальные файлы, которые они использовали для создания этой книги. На первой странице я бы сказал, что это сделано на компьютере. Преобразуйте {вставьте здесь действительно старый пакет текстового процессора} в текущий формат, и все готово.

Второй самый быстрый способ превратить стопку печатных материалов в цифровой документ:

  1. Снимите привязку.
  2. Отрежьте левый край страниц, чтобы избавиться от дыр. Отверстия мешают податчику документов.
  3. Просмотрите книгу и раскройте все складки и другие повреждения, которые могут помешать устройству подачи документов.
  4. Найдите любой достаточно современный дуплексный принтер с устройством подачи документов и функцией сканирования. Сканирование в PDF.

Затем используйте любой пакет OCR, чтобы превратить отсканированные страницы в файл Word. Для этой цели я использую функции оптического распознавания текста в полной версии Adobe Acrobat, но вокруг есть много механизмов распознавания.


0

Возможно, вы захотите попробовать очень недорогой сервис: preserve-your-memories.info. Делая это самостоятельно, я использую свой сканер для сканирования в OmniPage, программу OCR, а затем сохраняю в виде файла PDF, который полностью доступен для поиска. Поскольку ваша публикация связана с пластиковыми гребнями, ее легко разобрать, чтобы отсканировать отдельные страницы, а затем выполнить переплет. Съемка, как указано в приведенных выше предложениях, также очень работоспособна - хороший вариант среди многих подходов.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.