Я был на месте моего деда в прошлые выходные. Моя бабушка вытащила эту гигантскую (~ 1400 страниц) книгу о своей семейной истории, восходящую к 1630 году или около того. Гигантский ботаник, которым я являюсь, я подумал, что было бы замечательно хранить всю информацию в базе данных и получать ее из Интернета. Я могу справиться со всем веб-программированием и регулярными выражениями, а что нет, но то, что я не знаю, является лучшим способом передачи текста из книги в компьютер.
Я знаю, что какой-то OCR будет необходим, из небольшого исследования, которое я сделал, кажется, что мои варианты:
- сфотографировать каждую страницу с помощью камеры, а затем обработать изображения с помощью программного обеспечения OCR
- используйте сканер для сканирования каждой страницы, затем обработайте с помощью программного обеспечения OCR
- используйте какое-то портативное устройство, подобное этому .
У кого-нибудь есть идеи о том, как лучше решить эту проблему? Я не хочу уничтожать книгу, потому что, насколько я знаю, ее нельзя заменить. Вероятно, это единственный раз, когда я собираюсь отсканировать большую книгу, поэтому я не думаю, что хочу потратить более 250 долларов на любое устройство. Я не возражаю против некоторых ручных усилий здесь (я понимаю, что это, скорее всего, займет месяцы), но я хотел бы найти наиболее эффективный из возможных методов.
Примечание о книге: ей всего около 20 лет, так что она в хорошей форме. Это монохромный, и страницы не начали желтеть. Так как он настолько большой, я беспокоюсь о возможных тенях, когда текст подходит близко к привязке.