Хороший бесплатный OCR с графическим интерфейсом для исправления ошибок? (для Windows)

Я использовал SimpleOCR , который имеет хороший графический интерфейс для исправления ошибок. К сожалению, он делает много ошибок! (и страдает от других ошибок и ограничений)

С другой стороны, Tesseract более точен, но вообще не имеет графического интерфейса.

У меня вопрос: есть ли бесплатная программа OCR для Windows, которая имеет приятный графический интерфейс и низкий уровень ошибок? Я хочу, чтобы он выделил подозрительные слова (из-за неопределенности OCR, а не только проверки орфографии) и показал оригинальное (растровое) слово, когда я редактировал слово OCRed, аналогичное тому, что делает SimpleOCR.

Лучше всего с открытым исходным кодом, за которым следуют бесплатные программы, затем пробная версия / демо / криплэвер.

Скриншот SimpleOCR, показывающий графический интерфейс для исправления ошибок

windows gui ocr

— Хью Аллен
источник

возможный дубликат бесплатного программного обеспечения OCR

— Сатьяджит Бхат

@ Сатья: мои конкретные требования отличают его от этого вопроса.

— Хью Аллен

Не совсем бесплатно, но вы смотрели в Microsoft Office? Он поставляется с OCR. (В настройке

— найдите функцию «Отображение

@horsedrowner: я только что попробовал. Его точность сравнима с Tesseract, но для него требуется файл TIFF с соответствующей настройкой DPI, или он не работает, и у него нет интерфейса для исправления ошибок распознавания.

— Хью Аллен

@ Хью Аллен: это? Это работало довольно хорошо, когда я наткнулся на функцию контекстного меню в OneNote 2007. И я использовал случайный файл изображения, скопированный с веб-сайта ...

— Vivelin

Ответы:

Вы пробовали gimagereader , графический интерфейс для Tesseract?

— ukanth
источник

Я только что попробовал это (под Windows), и он не запускается для меня - процесс завершается немедленно без сообщения об ошибке :( В любом случае, глядя на скриншоты, вы не можете выделить слово, которое вы редактируете. это?

— Хью Аллен

OCRopus :

Программное обеспечение частично основано на Tesseract, лучшем из доступных на данный момент OCR-движке с открытым исходным кодом. Хотя ожидается, что проект будет выпущен в конце следующего года и будет использоваться для проекта сканирования книг Google, команда имеет в виду несколько интересных приложений:

интерфейс веб-службы

PDF, камера и экран OCR

интеграция с инструментами поиска на рабочем столе: Beagle, Spotlight, Google Desktop

OCRopus (tm) - это современная система анализа документов и OCR, которая включает в себя анализ подключаемых макетов, распознавание подключаемых символов, статистическое моделирование на естественном языке и многоязычные возможности.

Механизм OCRopus основан на двух исследовательских проектах: высокопроизводительном распознавателе рукописного ввода, разработанном в середине 90-х годов и развернутом Бюро переписи населения США, и новых высокопроизводительных методах анализа макетов.

OCRopus - это разработка, спонсируемая Google и изначально предназначенная для высокопроизводительных и массовых преобразований документов. Мы ожидаем, что это также будет отличной системой распознавания текста для многих других приложений. Ссылки:

GOCR

GOCR - это программа оптического распознавания символов (OCR), разработанная в соответствии с публичной лицензией GNU. Он преобразует отсканированные изображения текста обратно в текстовые файлы. Йорг Шуленбург начал программу, а сейчас руководит командой разработчиков. GOCR может использоваться с разными интерфейсами, что позволяет очень легко портировать на разные ОС и архитектуры. Он может открывать много разных форматов изображений, и его качество улучшается с каждым днем.

Ссылки:

GOCR

— Krazy_Kaos
источник

У кого-нибудь из них есть приличный графический интерфейс?

— Хью Аллен

Edited ли ответ на ваш вопрос .... но я бы сказал: «Нет, они не», но я слышал , AbiWord поддерживает OCRopus ( arstechnica.com/open-source/news/2007/08/... )

— Krazy_Kaos

+1 за добавление скриншотов для ответа, а также за мини-обзор двух предлагаемых программ ...

— Курт Пфайфл

Существует также TOPOCR (он же SnapReader), содержащий пост-обработку проверки орфографии для 11 языков:

SnapReader может использоваться для создания собственных заметок с возможностью поиска практически из любого изображения документа. Или вы можете использовать его в качестве инструмента для создания и создания собственного редактируемого контента с помощью сканера или камеры и сохранять результаты в формате HTML или PDF. SnapReader также может преобразовывать текст в аудио очень высокого качества с помощью Audrey. Таким образом, вы можете не только использовать свой сканер или камеру для захвата документов, но теперь вы также можете использовать свой портативный музыкальный плеер или смартфон, чтобы «читать» их.

образ

— harrymc
источник