Существуют ли какие-либо хорошие программы для распознавания рукописного ввода с открытым исходным кодом?


16

Название спрашивает все это. Передо мной стоит задача ввода данных, которая не вызывает у меня особого энтузиазма: 50-100 страниц рукописных выходов / входов в журналы.

Формат журналов может помочь. Страницы разбиты на четко разграниченные строки и столбцы (13r x 6c с дополнительной типизированной строкой заголовка). Еще мне помогает то, что три столбца связаны с датой / временем (дата, время ожидания, время входа). Кроме того, данные в двух столбцах (ресурс и имя) более или менее перечисляются, так что, например, имя «Смит» может появляться снова и снова в столбце имени, каждый раз с одним и тем же почерком. Последний столбец, «Заметки», является свободной формой, но если бы я мог автоматизировать предыдущие 6 колонок, я бы не стал вводить Заметки вручную.

Какие-либо предложения? (Помимо «начать печатать».)

PS Если есть лучший сайт SE, чтобы спросить это, дайте мне знать, я спрошу там.


1
Можете ли вы опубликовать образец сканирования журнала?
Мартин Томпсон

1
Не беспокойтесь о Captricity - они спрашивают вашу электронную почту и отправляют «ссылку электронной почты» без ссылки.

И это то, что происходит, когда вы путаетесь с терминами «с открытым исходным кодом» и «бесплатно» ... что у вас есть компания, которая пытается получить преимущество на рынке, давая идею, что «открытый исходный код» равен «плохому» ».
Джоан

Ответы:


6

Тессеракт является, вероятно, лучшей и самой распространенной библиотекой OCR.

Он был протестирован с почерком и не так уж плохо - хотя почерк не так легко прочитать. http://arxiv.org/ftp/arxiv/papers/1003/1003.5893.pdf


Tesseract, безусловно, хороший вариант, если вы смотрите на бесплатный / открытый исходный код. Это не 100%, но в большинстве случаев он дает довольно точные результаты.
Капитан Кенпачи

4

Если у вас менее 10 страниц, Captricity может сделать это бесплатно.

Из коробки нет хороших решений с открытым исходным кодом для того, что вы ищете. Платные решения стоят дорого по лицензии. Это основано на нашем опыте создания службы распознавания рукописного ввода в Captricity . Мы используем tesseract в производстве, но только в качестве голоса, который в сочетании с человеческим интеллектом (краудсорсинг) обеспечивает высокий уровень качества.

Надеюсь, это поможет!

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.