Как я grep для всех не-ASCII символов?

359

У меня есть несколько очень больших файлов XML, и я пытаюсь найти строки, которые содержат символы не ASCII. Я пробовал следующее:

grep -e "[\x{00FF}-\x{FFFF}]" file.xml

Но это возвращает каждую строку в файле, независимо от того, содержит ли строка символ в указанном диапазоне.

У меня неправильный синтаксис или я делаю что-то еще неправильно? Я также попробовал:

egrep "[\x{00FF}-\x{FFFF}]" file.xml

(с одинарными и двойными кавычками вокруг шаблона).

— pconrey
источник

Символы ASCII имеют длину только один байт, поэтому, если файл не является юникодом, не должно быть символов выше 0xFF.

— здав

Как мы пойдем выше \ xFF? Grep выдает ошибку «grep: диапазон не по порядку в классе символов».

— Mudit Jain

495

Вы можете использовать команду:

grep --color='auto' -P -n "[\x80-\xFF]" file.xml

Это даст вам номер строки и выделит символы не-ascii красным цветом.

В некоторых системах, в зависимости от ваших настроек, вышеприведенное не сработает, поэтому вы можете использовать grep по обратной

grep --color='auto' -P -n "[^\x00-\x7F]" file.xml

Также обратите внимание, что важным битом является -Pфлаг, который соответствует --perl-regexp: поэтому он будет интерпретировать ваш шаблон как регулярное выражение Perl. Это также говорит о том, что

это очень экспериментально, и grep -P может предупредить о невыполненных функциях.

— JerryMouse
источник

42

Это не будет работать в BSD grep(на OS X 10.8 Mountain Lion), так как он не поддерживает эту Pопцию.

— Бастиан М. ван де Вирд

20

Чтобы обновить мой последний комментарий, версия GNU grepдоступна в dupesбиблиотеке Homebrew (включите использование brew tap homebrew/dupes):brew install grep

— Бастиан М. ван де Веерд

48

@BastiaanVanDeWeerd правильно, grep в OSX 10.8 больше не поддерживает PCRE («Perl-совместимые регулярные выражения»), поскольку Дарвин теперь использует BSD grep вместо GNU grep. Альтернативой установке dupesбиблиотеки является установка pcreвместо: brew install pcre... как часть этого, вы получите pcregrepутилиту, которую вы можете использовать следующим образом:pcregrep --color='auto' -n "[\x80-\xFF]" file.xml

— pvandenberk

15

Для brewпользователей Mac можно установить coreutils из GNUbrew install coreutils . Это даст вам много инструментов GNU с префиксом «g» - в этом случае используйте ggrep. Это должно избежать проблем, возникающих при замене системной утилиты, поскольку системные скрипты Mac теперь зависят от BSD grep.

— Джоэл Пурра

22

это отлично работает на Mac, ag "[\x80-\xFF]" fileвам просто нужно установитьthe_silver_searcher

— slf

123

Вместо того, чтобы делать предположения о диапазоне байтов не-ASCII-символов, как это делает большинство вышеупомянутых решений, немного лучше, чтобы IMO явно указывал фактический диапазон байтов ASCII-символов.

Таким образом, первое решение, например, станет:

grep --color='auto' -P -n '[^\x00-\x7F]' file.xml

(который в основном greps для любого символа вне шестнадцатеричного диапазона ASCII: от \ x00 до \ x7F)

На Mountain Lion это не будет работать (из-за отсутствия поддержки PCRE в BSD grep) , но с pcreустановленной через Homebrew, следующее будет работать также:

pcregrep --color='auto' -n '[^\x00-\x7F]' file.xml

Есть плюсы или минусы, которые кто-нибудь может придумать?

— pvandenberk
источник

9

Это на самом деле сработало для меня, где вышеперечисленные решения не удалось. Найти апострофы M $ Word еще проще!

— AlbertEngelB

2

Если у вас есть bash-совместимая оболочка, но не работает pcre-grep, она LC_COLLATE=C grep $'[^\1-\177]'работает (для файлов без нулевых байтов)

— idupree

2

Это решение работает более последовательно, чем приведенные выше.

— 0xcaff

1

Мне пришлось использовать это, чтобы забрать кандзи, кириллицу и традиционный китайский в моем файле UTF8, используя «[\ x80- \ xFF]», пропустив все это.

— buckaroo1177125

1

Профи это работало превосходно, в то время как другие варианты были великолепны, но не так хороши. Никаких минусов пока не найдено.

— jwpfox 19.09.16

67

Следующие работы для меня:

grep -P "[\x80-\xFF]" file.xml

Не-ASCII символы начинаются с 0x80 и переходят в 0xFF при просмотре байтов. Grep (и семейство) не выполняют обработку Unicode, чтобы объединить многобайтовые символы в одну сущность для соответствия регулярному выражению, как вам кажется. -PВариант в моем Grep позволяет использовать \xddпобеги в классах символов , чтобы выполнить то , что вы хотите.

— Телема
источник

1

Для представления, которое может не сразу знать, как вызвать это для нескольких файлов, просто запустите: find. имя * .xml | xargs grep -P "[\ x80- \ xFF]"

— Дэвид Мохундро

1

Это возвращает совпадение, но нет никаких указаний на то, что это за персонаж и где он находится. Как увидеть, что это за персонаж и где он?

— Фахим Митха

Добавление «-n» даст номер строки, кроме того, невидимые символы будут отображаться в виде блока в терминале: grep -n -P «[\ x80- \ xFF]» file.xml

— fooMonster

4

У меня проблема с Hangul Korean: echo '소녀시대' | grep -P "[\x80-\xFF]"для меня ничего не возвращается - кто-нибудь еще может подтвердить? (GNU grep 2.21)

— безумно

@frabjous же здесь, но обратное оглавление работы: echo '소녀시대' | grep -P "[^\x00-\x7F]". Или просто используйте the_silver_searcherкак указано @slf:echo '소녀시대' | ag "[\x80-\xFF]"

— Псмит

55

В перл

perl -ane '{ if(m/[[:^ascii:]]/) { print  } }' fileName > newFile

— noquery
источник

1

На OSX10.11 мне пришлось попробовать несколько решений grep + regex, прежде чем я нашел это, которое действительно работает

— sg

Хотите поделиться этим OSX решением @sg ?!

— геоэтерия

Приведенный выше скрипт на Perl - это решение, о котором я говорю

— sg

5

perl -lne 'print if /[^[:ascii:]]/' file.xml

— Naveed

43

Самый простой способ - определить не-ASCII-символ ... как символ, не являющийся ASCII-символом.

LC_ALL=C grep '[^ -~]' file.xml

Добавьте вкладку после ^ если это необходимо.

Параметр LC_COLLATE=Cпозволяет избежать неприятных сюрпризов о значении диапазонов символов во многих локалях. Установка LC_CTYPE=Cнеобходима для соответствия однобайтовых символов - в противном случае команда пропустит недопустимые последовательности байтов в текущей кодировке. Настройка полностью LC_ALL=Cисключает зависящие от локали эффекты.

— Жиль "ТАК - перестань быть злым"
источник

На RedHat 6.4 с tcsh мне пришлось использовать <<< env LC_COLLATE = C grep -n '[^ - ~]' file.xml >>>. Я добавил -n, чтобы получить номер строки.

— ddevienne

Для меня echo "A" | LC_COLLATE=C grep '[^ -~]'возвращается матч

— frabjous

1

@frabjous Если у вас есть LC_ALL=en_US.UTF-8, это превосходит LC_COLLATEнастройки. Вы не должны иметь это в своей среде! LC_ALLобычно заставляет определенную задачу использовать конкретную локаль C. Чтобы установить язык по умолчанию для всех категорий, установите LANG.

— Жиль "ТАК - перестань быть злым"

1

Сначала я не добавлял LC_ALL=C, это ведет себя по-разному в Mac OS X и Ubuntu. После того, как я добавлю этот параметр, они дают тот же результат.

— Макс Пэн

1

Это работает на Mac, а другие решения на основе grep - нет.

— Матиас Фрипп

26

Вот еще один вариант, который я обнаружил, который дал совершенно разные результаты поиска grep [\x80-\xFF]в принятом ответе. Возможно, кому-то будет полезно найти дополнительные символы, не относящиеся к ascii:

grep --color='auto' -P -n "[^[:ascii:]]" myfile.txt

Примечание: у grep моего компьютера (Mac) не было -Pопции, поэтому я сделал brew install grepи начал вызов выше с ggrepвместо grep.

— ryanm
источник

2

Это, безусловно, лучший ответ, поскольку он работает как для Mac, так и для Linux.

— tommy.carstensen

Только тот, который работал для меня на Linux.

9

Следующий код работает:

find /tmp | perl -ne 'print if /[^[:ascii:]]/'

Замените /tmpна имя каталога, который вы хотите найти.

— user7417071
источник

2

На Mac это работает, а большинство основанных на grep - нет.

— Матиас Фрипп

9

Поиск непечатаемых символов. TLDR; Управляющее резюме

поиск контрольных символов и расширенного Unicode
настройка локали, например, LC_ALL=Cнеобходимая, чтобы grep делал то, что вы могли ожидать с расширенным юникодом

Так что предпочтительные не ASCII Char Finders:

$ perl -ne 'print "$. $_" if m/[\x00-\x08\x0E-\x1F\x80-\xFF]/' notes_unicode_emoji_test

как в верхнем ответе, обратный grep:

$ grep --color='auto' -P -n "[^\x00-\x7F]" notes_unicode_emoji_test

как в верхнем ответе, но с LC_ALL=C:

$ LC_ALL=C grep --color='auto' -P -n "[\x80-\xFF]" notes_unicode_emoji_test

, , Больше . , Мучительная деталь в этом: , ,

Я согласен с Харви выше, погруженным в комментарии, часто полезнее искать непечатные символы ИЛИ легко думать не ASCII, когда вы действительно должны думать, что вы не печатаете. Харви предлагает "использовать это:" [^\n -~]". Добавьте \ r для текстовых файлов DOS. Это означает" [^\x0A\x020-\x07E]"и добавьте \ x0D для CR"

Кроме того, добавление -c (показать количество совпавших шаблонов) в grep полезно при поиске непечатаемых символов, поскольку соответствующие строки могут испортить терминал.

Я обнаружил, что добавление диапазона 0-8 и 0x0e-0x1f (к диапазону 0x80-0xff) является полезным шаблоном. Это исключает TAB, CR и LF и один или два необычных печатных символа. ИМХО, довольно полезный (хотя и грубый) шаблон grep это:

grep -c -P -n "[\x00-\x08\x0E-\x1F\x80-\xFF]" *

В действительности, как правило, вам нужно сделать это:

LC_ALL=C grep -c -P -n "[\x00-\x08\x0E-\x1F\x80-\xFF]" *

сломать:

LC_ALL=C - set locale to C, otherwise many extended chars will not match (even though they look like they are encoded > 0x80)
\x00-\x08 - non-printable control chars 0 - 7 decimal
\x0E-\x1F - more non-printable control chars 14 - 31 decimal
\x80-1xFF - non-printable chars > 128 decimal
-c - print count of matching lines instead of lines
-P - perl style regexps

Instead of -c you may prefer to use -n (and optionally -b) or -l
-n, --line-number
-b, --byte-offset
-l, --files-with-matches

Например, практический пример использования find для поиска всех файлов в текущем каталоге:

LC_ALL=C find . -type f -exec grep -c -P -n "[\x00-\x08\x0E-\x1F\x80-\xFF]" {} +

Вы можете настроить grep время от времени. например, BS (0x08 - backspace) char, используемый в некоторых печатаемых файлах или для исключения VT (0x0B - вертикальная вкладка). Символы BEL (0x07) и ESC (0x1B) также могут считаться пригодными для печати в некоторых случаях.

Non-Printable ASCII Chars
** marks PRINTABLE but CONTROL chars that is useful to exclude sometimes
Dec   Hex Ctrl Char description           Dec Hex Ctrl Char description
0     00  ^@  NULL                        16  10  ^P  DATA LINK ESCAPE (DLE)
1     01  ^A  START OF HEADING (SOH)      17  11  ^Q  DEVICE CONTROL 1 (DC1)
2     02  ^B  START OF TEXT (STX)         18  12  ^R  DEVICE CONTROL 2 (DC2)
3     03  ^C  END OF TEXT (ETX)           19  13  ^S  DEVICE CONTROL 3 (DC3)
4     04  ^D  END OF TRANSMISSION (EOT)   20  14  ^T  DEVICE CONTROL 4 (DC4)
5     05  ^E  END OF QUERY (ENQ)          21  15  ^U  NEGATIVE ACKNOWLEDGEMENT (NAK)
6     06  ^F  ACKNOWLEDGE (ACK)           22  16  ^V  SYNCHRONIZE (SYN)
7     07  ^G  BEEP (BEL)                  23  17  ^W  END OF TRANSMISSION BLOCK (ETB)
8     08  ^H  BACKSPACE (BS)**            24  18  ^X  CANCEL (CAN)
9     09  ^I  HORIZONTAL TAB (HT)**       25  19  ^Y  END OF MEDIUM (EM)
10    0A  ^J  LINE FEED (LF)**            26  1A  ^Z  SUBSTITUTE (SUB)
11    0B  ^K  VERTICAL TAB (VT)**         27  1B  ^[  ESCAPE (ESC)
12    0C  ^L  FF (FORM FEED)**            28  1C  ^\  FILE SEPARATOR (FS) RIGHT ARROW
13    0D  ^M  CR (CARRIAGE RETURN)**      29  1D  ^]  GROUP SEPARATOR (GS) LEFT ARROW
14    0E  ^N  SO (SHIFT OUT)              30  1E  ^^  RECORD SEPARATOR (RS) UP ARROW
15    0F  ^O  SI (SHIFT IN)               31  1F  ^_  UNIT SEPARATOR (US) DOWN ARROW

ОБНОВЛЕНИЕ: я должен был вернуться к этому недавно. И, YYMV в зависимости от настроек терминала / прогноза солнечной погоды, НО. , Я заметил, что grep не находил много юникодов или расширенных символов. Хотя интуитивно они должны соответствовать диапазону от 0x80 до 0xff, 3 и 4-байтовые символы Unicode не были сопоставлены. ??? Кто-нибудь может объяснить это? ДА. @frabjous спросил и @calandoa объяснил, что LC_ALL=Cследует использовать, чтобы установить языковой стандарт для команды, чтобы сделать совпадение grep.

например, мой язык LC_ALL=пуст

$ locale
LANG=en_IE.UTF-8
LC_CTYPE="en_IE.UTF-8"
.
.
LC_ALL=

grep с LC_ALL=пустыми совпадениями 2-байтовые кодированные символы, но не 3 и 4-байтовые:

$ grep -P -n "[\x00-\x08\x0E-\x1F\x80-\xFF]" notes_unicode_emoji_test
5:© copyright c2a9
7:call  underscore c2a0
9:CTRL
31:5 © copyright
32:7 call  underscore

grep с LC_ALL=Cдействительно соответствует всем расширенным символам, которые вы хотели бы:

$ LC_ALL=C grep --color='auto' -P -n "[\x80-\xFF]" notes_unicode_emoji_test  
1:���� unicode dashes e28090
3:��� Heart With Arrow Emoji - Emojipedia == UTF8? f09f9298
5:� copyright c2a9
7:call� underscore c2a0
11:LIVE��E! ���������� ���� ���������� ���� �� �� ���� ����  YEOW, mix of japanese and chars from other e38182 e38184 . . e0a487
29:1 ���� unicode dashes
30:3 ��� Heart With Arrow Emoji - Emojipedia == UTF8 e28090
31:5 � copyright
32:7 call� underscore
33:11 LIVE��E! ���������� ���� ���������� ���� �� �� ���� ����  YEOW, mix of japanese and chars from other
34:52 LIVE��E! ���������� ���� ���������� ���� �� �� ���� ����  YEOW, mix of japanese and chars from other
81:LIVE��E! ���������� ���� ���������� ���� �� �� ���� ����  YEOW, mix of japanese and chars from other

НАСТОЯЩЕЕ соответствие perl (частично найденное в другом месте в stackoverflow) ИЛИ обратный grep в верхнем ответе, похоже, обнаруживает ВСЕ странные ~ и ~ чудесные ~ "не-ascii" символы без установки языкового стандарта:

$ grep --color='auto' -P -n "[^\x00-\x7F]" notes_unicode_emoji_test

$ perl -ne 'print "$. $_" if m/[\x00-\x08\x0E-\x1F\x80-\xFF]/' notes_unicode_emoji_test  

1 ‐‐ unicode dashes e28090
3 💘 Heart With Arrow Emoji - Emojipedia == UTF8? f09f9298
5 © copyright c2a9
7 call  underscore c2a0
9 CTRL-H CHARS URK URK URK 
11 LIVE‐E! あいうえお かが アイウエオ カガ ᚊ ᚋ ซฌ आइ  YEOW, mix of japanese and chars from other e38182 e38184 . . e0a487
29 1 ‐‐ unicode dashes
30 3 💘 Heart With Arrow Emoji - Emojipedia == UTF8 e28090
31 5 © copyright
32 7 call  underscore
33 11 LIVE‐E! あいうえお かが アイウエオ カガ ᚊ ᚋ ซฌ आइ  YEOW, mix of japanese and chars from other
34 52 LIVE‐E! あいうえお かが アイウエオ カガ ᚊ ᚋ ซฌ आइ  YEOW, mix of japanese and chars from other
73 LIVE‐E! あいうえお かが アイウエオ カガ ᚊ ᚋ ซฌ आइ  YEOW, mix of japanese and chars from other

Так что предпочтительные не ASCII Char Finders:

$ perl -ne 'print "$. $_" if m/[\x00-\x08\x0E-\x1F\x80-\xFF]/' notes_unicode_emoji_test

как в верхнем ответе, обратный grep:

$ grep --color='auto' -P -n "[^\x00-\x7F]" notes_unicode_emoji_test

как в верхнем ответе, но с LC_ALL=C:

$ LC_ALL=C grep --color='auto' -P -n "[\x80-\xFF]" notes_unicode_emoji_test

— gaoithe
источник

1

Ответьте, почему grep не соответствует символам, закодированным более чем в 2 байтах, благодаря @calandoa и frabjous в комментариях выше к вопросу. Используйте LC_ALL = C перед командой grep.

— gaoithe

1

Большое спасибо за то, что потрудились опубликовать ответ, похороненный под 800 другими возражениями! Моя проблема была 0x02 символ. Возможно, вы захотите поместить этот «практический пример использования» в самый верх, так как вам действительно не нужно читать весь пост, чтобы просто увидеть, является ли это вашей проблемой.

— Ноумен

1

Я знаю, действительно старый ответ, и мучительные детали, но исправить, полезно для меня и других, также я надеюсь. Вы правы, я добавил TLDR; наверху

— Гаоита

1

Странно, я должен был сделать это сегодня! Я закончил тем, что использовал Perl, потому что я не мог заставить работать grep / egrep (даже в режиме -P). Что-то вроде:

cat blah | perl -en '/\xCA\xFE\xBA\xBE/ && print "found"'

Для символов Юникода (например, \u2212 в примере ниже) используйте это:

find . ... -exec perl -CA -e '$ARGV = @ARGV[0]; open IN, $ARGV; binmode(IN, ":utf8"); binmode(STDOUT, ":utf8"); while (<IN>) { next unless /\N{U+2212}/; print "$ARGV: $&: $_"; exit }' '{}' \;

— DTY
источник

1

Было бы интересно узнать, как искать один символ Юникода. Эта команда может помочь. Вам нужно только знать код в UTF8

grep -v $'\u200d'

— arezae
источник

Я на самом деле не эксперт, но я знаю достаточно, чтобы понять, что это не представление UTF8, это UTF16, или, может быть, UTF32 или UCS16. Для двухбайтовой кодовой точки эти три могут быть одинаковыми.

— Baxissimo

1

Поиск всех символов, отличных от ascii, создает впечатление, что кто-то ищет строки в юникоде или намеревается раздеть эти символы по отдельности.

Для первого, попробуйте один из них (переменная fileиспользуется для автоматизации):

 file=file.txt ; LC_ALL=C grep -Piao '[\x80-\xFF\x20]{7,}' $file | iconv -f $(uchardet $file) -t utf-8

 file=file.txt ; pcregrep -iao '[\x80-\xFF\x20]{7,}' $file | iconv -f $(uchardet $file) -t utf-8

 file=file.txt ; pcregrep -iao '[^\x00-\x19\x21-\x7F]{7,}' $file | iconv -f $(uchardet $file) -t utf-8

Ванильный grep не работает правильно без LC_ALL = C, как отмечалось в предыдущих ответах.

Диапазон ASCII есть x00-x7F, пространствоx20 , так как в строках есть пробелы, которые отрицательный диапазон пропускает.

Диапазон не ASCII x80-xFF, так как строки имеют пробелы, положительный диапазон добавляет его.

Предполагается, что строка должна содержать не менее 7 последовательных символов в диапазоне. {7,},

Для вывода, читаемого оболочкой, uchardet $fileвозвращает предположение о кодировке файла, которая передается в iconv для автоматической интерполяции.

— noabody
источник

Это очень полезно из-за упоминания uchardetкоманды. Спасибо за это хедз-ап!

— bballdave025