Я создаю парсер для .one
расширения файла, который по завершении я добавлю в проект Apache Tika.
Вот лицензионный проект с открытым исходным кодом APL 2.0, который я создаю: https://github.com/nddipiazza/onenote-parser-java
Я использовал документ спецификации здесь: https://docs.microsoft.com/en-us/openspecs/office_file_formats/ms-one/73d22548-a613-4350-8c23-07d15576be50
В качестве отправной точки я перенес код из этого проекта C ++ с открытым исходным кодом: https://github.com/dropbox/onenote-parser
Я проделал длинный путь в разборе документов, но я столкнулся с дорожным блоком.
Вот файл OneNote, который я использую для анализа: https://drive.google.com/file/d/1uROTEnKeBKU08CG_K5zdDTGHa178LgBK/view?usp=sharing
Я не могу просмотреть Section1TextArea1 и Section1TextArea2 в моих проанализированных результатах. Так что мне не хватает какого-то ключевого элемента анализа данных или чего-то еще.
Это определенно в самом файле OneNote. Я вижу это в Hex Viewer:
Вот результат анализа JSON: https://gist.github.com/nddipiazza/02d2252d357b3b02a6b9ab1050474267
Мне кажется, что в техническом документе отсутствует очень важная информация, необходимая для анализа этого закрытого формата.
Какой основной элемент (элементы) я пропускаю, в результате чего я не получаю фактическое содержание текста?