Копирование прямого текста из файла, сгенерированного латексом

Я пытаюсь внести некоторые исправления в документ PDF, сгенерированный из латекса.

Чтобы сделать исправления, я сначала копирую текст из PDF.

Случается так, что в сгенерированном PDF слова обрезаются справа, когда они не соответствуют размеру поля, например, когда слово «абзац» слишком велико, чтобы уместиться, оно будет обрезано так:

word1 word2\n 
word3 para-\n
graph word4\n

Кроме того, разрывы строк не делаются, когда это необходимо, но всегда в конце текста.

У меня нет доступа к оригиналу. Так что это проблема, когда я копирую текст для редактирования где-то, так как в итоге получаю кучу ненужных разрывов строк и разрывов слов (не знаю, как эти последние на самом деле называются).

Есть ли способ правильно скопировать текст из файла PDF?

Это то, что PDF-файл делает для того, чтобы слова аккуратно помещались на странице, без текстового выравнивания?

pdf latex text-editing

— fullmooninu
источник

Так в чем конкретно твой вопрос? Это также может быть лучше подходит для обмена стека LaTeX. Если это так, отметьте его для миграции.

— user2313067

Я оставлю это здесь на некоторое время, так как это может быть связано с PDF, я не уверен.

— fullmooninu

Эти два регулярных выражения выполняются в том порядке, как должно работать.

s/-\n//g
s/([^.])\n/$1 /g

— fullmooninu
источник