Evernote распознает изображения, которые вы сохраняете. Есть ли способ получить полнотекстовый эквивалент изображения в Evernote или OCR предназначен только для поиска?
Evernote распознает изображения, которые вы сохраняете. Есть ли способ получить полнотекстовый эквивалент изображения в Evernote или OCR предназначен только для поиска?
Ответы:
Evernote API имеет функции для получения текста и прямоугольника, где этот текст присутствует внутри изображения. См. Http://evernote.com/about/developer/api/evernote-api.htm , ознакомьтесь с «XML-форматом индекса распознавания Evernote» и функциями для его получения. Проблема в том, что они не выполняют традиционное распознавание текста ... их алгоритм распознавания может создавать разные слова для одного «слова» на изображении. Все, что они используют - это поиск, так что это хорошо для них, но не подходит для использования в качестве механизма распознавания. (Хотя они дают вам вес для каждого альтернативного слова, так что, возможно, вы можете использовать это)
Кроме того, Evernote, по-видимому, не решает, что конкретное изображение эквивалентно ровно одному слову - например, Evernote не определяет, что конкретное изображение является «ключом» и не «должным образом». Скорее, он будет отслеживать оба, и поиск любого из них вернет одно и то же изображение. Следовательно, нет никакого способа получить полнотекстовый эквивалент, потому что Evernote не решает, что на самом деле представляет собой полный текст, а только то, каким он может быть.
evernote платит приличную сумму создателю ocr-материала ИЛИ платит приличную сумму за совместную работу. таким образом, я действительно сомневаюсь, что они позволят вам получить извлеченный текст (+ позиционирование на изображении).
(может быть бизнес-модель, чтобы сканировать изображения других людей и обеспечить хороший OCR :))
Итак, ответ: нет.
Я не уверен, какая сложность вам нужна, но так как я также использую Adobe Acrobat, я просто щелкаю правой кнопкой мыши на своем вложении Evernote, чтобы открыть его с помощью Acrobat.
Затем в Acrobat я выбираю «Документ | Распознавание текста» и сохраняю документ в виде обычного текста.
Это хорошо работает для меня, так как мне нужно только случайное преобразование OCR.
Если бы вы могли получить все изображения из Evernote, вы можете сделать OCR с Google Docs.
Вы можете загрузить папку изображений в Документы Google и преобразовать их в Документы, которые будут содержать как изображение, так и текст OCRed.
Затем вы можете пакетно загрузить все эти документы в виде обычного текста, который вычеркнет изображение.
Если вы называете все изображения Evernote с помощью хэша (например md5
), должно быть легко связать простые текстовые файлы, загруженные из Документов Google, с исходным изображением.
Я нахожусь на Windows и использую Adobe Acrobat Pro и Word, поэтому я делаю следующее: