Вопросы с тегом «text-processing»

Манипулирование или изучение текста с помощью программ, сценариев и т. Д.

6
Неверная фильтрация utf8
У меня есть текстовый файл в неизвестной или смешанной кодировке. Я хочу видеть строки, которые содержат последовательность байтов, которая не является допустимой UTF-8 (путем передачи текстового файла в какую-то программу). Эквивалентно, я хочу отфильтровать строки, которые являются действительными UTF-8. Другими словами, я ищу .grep [notutf8] Идеальное решение было бы переносимым, …

10
Как проверить, использует ли файл CRLF или LF, не изменяя его?
Мне нужно периодически запускать команду, которая гарантирует, что некоторые текстовые файлы хранятся в режиме Linux. К сожалению, dos2unixвсегда изменяет файл, который может испортить временные метки файла и папки и вызвать ненужные записи. Сценарий, который я пишу, написан на Bash, поэтому я бы предпочел ответы, основанные на Bash.

13
Как распечатать все строки после совпадения до конца файла?
Входной файл1: dog 123 4335 cat 13123 23424 deer 2131 213132 bear 2313 21313 Я даю совпадение по шаблону из in other file(как dog 123 4335из file2). Я соответствую шаблону строки, dog 123 4335и после печати всех строк без строки соответствия мой вывод: cat 13123 23424 deer 2131 213132 bear …

19
Есть ли надежный инструмент командной строки для обработки CSV-файлов?
Я работаю с CSV-файлами, и иногда мне нужно быстро проверить содержимое строки или столбца из командной строки. Во многих случаях cut, head, tailи друзья будут делать эту работу; тем не менее, сокращение не может легко справиться с такими ситуациями, как "this, is the first entry", this is the second, 34.5 …

3
Как я могу проверить кодировку текстового файла ... Это действительно, и что это?
У меня есть несколько .htmфайлов, которые открываются в Gedit без каких-либо предупреждений / ошибок, но когда я открываю эти же файлы Jedit, он предупреждает меня о недопустимой кодировке UTF-8 ... В метатеге HTML указано «charset = ISO-8859-1». Jedit допускает Список резервных кодировок и Список авто-детекторов кодирования (в настоящее время "BOM …

8
Как конвертировать TXT в PDF?
Я хочу конвертировать .txtфайлы в .pdf. Я использую это: ls | while read ONELINE; do convert -density 400 "$ONELINE" "$(echo "$ONELINE" | sed 's/.txt/.pdf/g')"; done Но это приводит к одной «ошибке» - если в текстовом файле есть очень длинная строка, она не переносится. Введите текст Выходной PDF - Также было …

5
Удалить последнюю строку из файла
Я использую, sed чтобы быстро удалить строки с определенной позиции, как sed '1d' sed '5d' Но что делать, если я хочу удалить последнюю строку файла, и я не знаю количество строк (я знаю, что могу получить это, используя wcи несколько других приемов). В настоящее время используется обходной путь headи в …

5
Заменить переменные среды в файле с их фактическими значениями?
Есть ли простой способ заменить / оценить переменные среды в файле? Например, у меня есть файл, config.xmlкоторый содержит: <property> <name>instanceId</name> <value>$INSTANCE_ID</value> </property> <property> <name>rootPath</name> <value>/services/$SERVICE_NAME</value> </property> ...так далее. Я хочу заменить $INSTANCE_IDв файле значение INSTANCE_IDпеременной окружения $SERVICE_NAMEзначением SERVICE_NAMEenv var. Я априори не буду знать, какие переменные среды нужны (или, скорее, …

4
Как получить только уникальные результаты без сортировки данных?
$ cat data.txt aaaaaa aaaaaa cccccc aaaaaa aaaaaa bbbbbb $ cat data.txt | uniq aaaaaa cccccc aaaaaa bbbbbb $ cat data.txt | sort | uniq aaaaaa bbbbbb cccccc $ В результате мне нужно отобразить все строки исходного файла, удалив все дубликаты (не только последовательные), сохранив при этом исходный порядок операторов …


6
команда на вкладке макета разделенный список красиво
Иногда, я получаю как разделенный вкладкой список, который не совсем выровнен, например var1 var2 var3 var_with_long_name_which_ruins_alignment var2 var3 Есть ли простой способ сделать их выровненными? var1 var2 var3 var_with_long_name_which_ruins_alignment var2 var3

4
Grep от конца файла до начала
У меня есть файл с 30 000 000 строк (учет радиуса), и мне нужно найти последнее совпадение данного шаблона. Команда: tac accounting.log | grep $pattern дает то, что мне нужно, но это слишком медленно, потому что ОС должна сначала прочитать весь файл, а затем отправить в канал. Итак, мне нужно …


4
Самый простой способ комментировать / раскомментировать определенные строки с помощью командной строки
Есть ли способ комментировать / раскомментировать сценарий shell / config / ruby ​​с помощью командной строки? например: $ comment 14-18 bla.conf $ uncomment 14-18 bla.conf это добавит или удалит #знак bla.confна линии 14к 18. Обычно я использую sed, но я должен знать содержимое этих строк, а затем выполнить операцию поиска …

1
Как сделать так, чтобы tr знал не-ascii (юникод) символы?
Я пытаюсь удалить некоторые символы из файла (UTF-8). Я использую trдля этого: tr -cs '[[:alpha:][:space:]]' ' ' <testdata.dat Файл содержит несколько иностранных символов (например, «Латвийская» или «àé»). trкажется, не понимает их: он рассматривает их как не-альфа и удаляет тоже. Я попытался изменить некоторые из моих настроек локали: LC_CTYPE=C LC_COLLATE=C tr …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.