Программное обеспечение частично основано на Tesseract, лучшем из доступных на данный момент OCR-движке с открытым исходным кодом. Хотя ожидается, что проект будет выпущен в конце следующего года и будет использоваться для проекта сканирования книг Google, команда имеет в виду несколько интересных приложений:
- интерфейс веб-службы
- PDF, камера и экран OCR
- интеграция с инструментами поиска на рабочем столе: Beagle, Spotlight, Google Desktop
OCRopus (tm) - это современная система анализа документов и OCR, которая включает в себя анализ подключаемых макетов, распознавание подключаемых символов, статистическое моделирование на естественном языке и многоязычные возможности.
Механизм OCRopus основан на двух исследовательских проектах: высокопроизводительном распознавателе рукописного ввода, разработанном в середине 90-х годов и развернутом Бюро переписи населения США, и новых высокопроизводительных методах анализа макетов.
OCRopus - это разработка, спонсируемая Google и изначально предназначенная для высокопроизводительных и массовых преобразований документов. Мы ожидаем, что это также будет отличной системой распознавания текста для многих других приложений.
Ссылки:
GOCR - это программа оптического распознавания символов (OCR), разработанная в соответствии с публичной лицензией GNU. Он преобразует отсканированные изображения текста обратно в текстовые файлы. Йорг Шуленбург начал программу, а сейчас руководит командой разработчиков. GOCR может использоваться с разными интерфейсами, что позволяет очень легко портировать на разные ОС и архитектуры. Он может открывать много разных форматов изображений, и его качество улучшается с каждым днем.