Я экспортирую содержимое MS Word в обычный текст для использования с текстовыми и файловыми утилитами. У меня есть ограничение, когда функция нумерации строк была включена в программном обеспечении MS, и любая ссылка на номера строк в конечном выводе должна соответствовать этой нумерации. Итак, введите «нумерация строк»:
( Poe, EA )
Очевидно, что для Word такая нумерация не разбивает строки на новой строке , она разбивает «строки» после правого поля (или чего-то еще). Похоже docx2txt
, что сценарий не учитывает это по умолчанию и разрывает строки на новую строку. Поэтому, если я использую grep -n
нумерацию, строки не будут соответствовать функции нумерации исходных строк, как показано выше. Из документации не совсем понятно, как мне нужно отредактировать скрипт Perl для преобразования файлов так, как мне нужно в этом случае:
our $config_newLine = "\n"; # Alternative is "\r\n".
our $config_lineWidth = 80; # Line width, used for short line justification.
Я попытался подставляя \n
для \r\n
но это не похоже на работу для меня. Поэтому я прибег к экспорту документов напрямую из Word со следующими настройками (сохранить в виде обычного текста на v.2013,64pc):
- Unicode (UTF-8)
- Вставить разрывы строк + конец строк с помощью (CR / LF)
- Разрешить замену персонажа
И теперь действительно , когда я использовать те .txt
файлы , есть идеальное совпадение между номерами строк , в особенности нумерации источника и grep -n
выводе.
- Есть ли какая-то конкретная конфигурация / процесс, о котором я должен знать,
docx2txt
или подобная утилита командной строки, которая позволила бы мне конвертировать мои файлы .docx в обычный текст, сохраняя разрывы строк, не прибегая к Word, как я? - Каковы наилучшие практики для экспорта документов MS Word (которые могут содержать символы с акцентом) в простой текст для использования с файловыми / текстовыми утилитами в отношении разрывов строк и форматирования; и есть ли какие-либо негативные последствия с настройками, которые я выбрал для экспорта, т.е. вставкой CR / LF?
Образец
Как предложено, я предоставлю образец. В этом архиве rar я упаковал файл .docx с простыми абзацами и его экспортированный файл .txt, используя Word с вышеупомянутыми параметрами. Последнее можно сравнить с запуском по умолчанию для docx2txt
исходного файла.