Мне нужно получить тысячи фрагментов текста из PDF-файлов в электронную таблицу. Они короткие, редко больше, чем 2-3 строки, но каждый разрыв строки создает новую ячейку, и мне приходится ремонтировать ее вручную, что стоит много времени.
Поскольку у меня их так много, использование обходного пути «вставь в Word и найди и замени» просто слишком трата времени для меня. Есть ли способ, чтобы разрыв строки исчез при копировании? Может быть, есть зритель, который предлагает специальный режим копирования для этого, или имеет плагин?
Документы являются научными статьями. Расположение текста довольно линейное. Вы можете предположить, что текст, который я копирую, не находится внутри таблицы или с плавающей точкой, и не вращается или что-то еще. (Если такое случится, я думаю, я справлюсь с этим вручную). Текст часто задается в двух столбцах, но у меня нет проблем с выделением нужного текста из его столбца. Мне не нужно сохранять какое-либо специальное форматирование. Я готов попробовать решение, которое удаляет все непечатаемые символы, например. Тексты на английском языке, это нормально, если решение работает только в ASCII / удаляет все не алфавитно-цифровые ASCII скопированного текста.
У меня есть очень сильное предпочтение для решения, которое будет работать на Linux, возможно, какой-то плагин Okular. Но если будет решение для Windows, я тоже хочу услышать об этом. У меня есть лицензия на несколько последних версий Acrobat Pro на компьютере с Windows.