197

Я пытался использовать это, но не сработало

return value.replaceAll("/[^A-Za-z0-9 ]/", "");

java regex non-alphanumeric

— Алекс Гомес
источник

36

Ребята, вы забыли, что есть алфавиты, кроме латинского.

— Матева

2

Но если вы хотите проверить имя хоста, например, было бы хорошо исключить недопустимые алфавиты.

— Gurnard

245

Использование [^A-Za-z0-9].

Примечание: убрал пробел, поскольку он обычно не считается буквенно-цифровым.

— Мирек Плута
источник

10

Также не должно быть пробела в конце класса символов.

— Эндрю Даффи

6

Вероятно, он привык к программированию на PHP.

— Уильям

10

@William - жаль, что PHP теперь получает кредит на PCRE

— Томас Диньян

reg exp в порядке, просто удалите "/" из строки регулярного выражения из value.replaceAll ("/ [^ A-Za-z0-9] /", ""); для value.replaceAll ("[^ A-Za-z0-9]", ""); вам не нужно "/" внутри регулярного выражения, я думаю, что вы перепутали с шаблонами javascript

— eriknyk

128

Пытаться

return value.replaceAll("[^A-Za-z0-9]", "");

или

return value.replaceAll("[\\W]|_", "");

— Эндрю Даффи
источник

4

Подчеркивая,return value.replaceAll("\\W", "");

— Эриксон

Конечно. Компиляторы отлично разбираются в подобных вещах.

— Эндрю Даффи

1

Второй не отвечает на вопрос. А как насчет символов вроде: / \ etc?

— WW.

67

Вы должны знать, что [^a-zA-Z]заменит символы, не являющиеся самими собой в диапазоне символов AZ / az. Это означает, что специальные символы, такие как éи ßт. Д., Или символы кириллицы, и такие будут удалены.

Если замена этих символов нежелательна, используйте вместо этого заранее определенные классы символов:

 str.replaceAll("[^\\p{IsAlphabetic}\\p{IsDigit}]", "");

PS: \p{Alnum}не достигает этого эффекта, он действует так же, как [A-Za-z0-9].

— Андре Стингресс
источник

11

Большое спасибо за этот пост - это было очень полезно для меня. Кроме того, я считаю, что это фактический ответ на вопрос. Латинский алфавит не единственный в мире!

— Матева

2

На самом деле, указанное регулярное выражение будет обрабатывать «^» как допустимый символ, поскольку только первое вхождение «^» сводит на нет значение выбора. [^\\p{IsAlphabetic}\\p{IsDigit}]работает хорошо.

— Богдан Кличук

1

@JakubTurcovsky docs.oracle.com/javase/10/docs/api/java/util/regex/Pattern.html определяет IsAlphabetic и IsDigit как двоичные свойства. Alpha и Digit - это классы символов POSIX (только для US-ASCII). За исключением того, что указан флаг docs.oracle.com/javase/10/docs/api/java/util/regex/… .

— Андре Стингресс

@AndreSteingress Правильно, причина {IsDigit}не работает для меня и {Digit}делает то, что я пробую это на Android. И Android UNICODE_CHARACTER_CLASSвключен по умолчанию. Спасибо за оформление.

— Якуб Турковский

Как разрешить только Alpha, Digit и Emoji?

— Роберт Гудрик

50

return value.replaceAll("[^A-Za-z0-9 ]", "");

Это оставит пробелы нетронутыми. Я полагаю, это то, что вы хотите. В противном случае удалите пробел из регулярного выражения.

— Эриксон
источник

21

Вы также можете попробовать это более простое регулярное выражение:

 str = str.replaceAll("\\P{Alnum}", "");

— Saurav
источник

2

Или, сохраняя пробелы:str.replaceAll("[^\\p{Alnum}\\s]", "")

— Jonik

Или \\p{Alnum}\\p{Space}.

— membersound

10

Регулярные выражения Java не требуют от вас ставить символ переднего слеша ( /) или любой другой разделитель вокруг регулярного выражения, в отличие от других языков, таких как Perl, например.

— abyx
источник

8

Я сделал этот метод для создания имен файлов:

public static String safeChar(String input)
{
    char[] allowed = "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ-_".toCharArray();
    char[] charArray = input.toString().toCharArray();
    StringBuilder result = new StringBuilder();
    for (char c : charArray)
    {
        for (char a : allowed)
        {
            if(c==a) result.append(a);
        }
    }
    return result.toString();
}

— zneo
источник

5

Это довольно грубая сила. Regex - это подход к ситуации с OP.

— Майкл Петерсон

1

Вы правы, регулярное выражение лучше. Но в то время я и regex не очень хорошо ладили.

— zneo

Ха, кто-нибудь действительно хорошо ладит с регулярным выражением? ;)

— Майкл Петерсон

6

Решение:

value.replaceAll("[^A-Za-z0-9]", "")

Объяснение:

[^abc] Когда каретка ^появляется в качестве первого символа в квадратных скобках, она отменяет шаблон. Этот шаблон соответствует любому символу, кроме a или b или c.

Глядя на ключевое слово как две функции:

[(Pattern)] = match(Pattern)
[^(Pattern)] = notMatch(Pattern)

Более того, в отношении шаблона:

A-Z = all characters included from A to Z
a-z = all characters included from a to z
0=9 = all characters included from 0 to 9

Поэтому он заменит все символы, НЕ включенные в шаблон

— GalloCedrone
источник

3

Если вы хотите также разрешить алфавитно-цифровые символы, которые не относятся к набору символов ascii, как, например, немецкие умлауты, вы можете использовать следующее решение:

 String value = "your value";

 // this could be placed as a static final constant, so the compiling is only done once
 Pattern pattern = Pattern.compile("[^\\w]", Pattern.UNICODE_CHARACTER_CLASS);

 value = pattern.matcher(value).replaceAll("");

Обратите внимание, что использование флага UNICODE_CHARACTER_CLASS может привести к снижению производительности (см. Javadoc этого флага)

— щелчок
источник

1

Простой метод:

public boolean isBlank(String value) {
    return (value == null || value.equals("") || value.equals("null") || value.trim().equals(""));
}

public String normalizeOnlyLettersNumbers(String str) {
    if (!isBlank(str)) {
        return str.replaceAll("[^\\p{L}\\p{Nd}]+", "");
    } else {
        return "";
    }
}

— Альберто Черкейра
источник

1

public static void main(String[] args) {
    String value = " Chlamydia_spp. IgG, IgM & IgA Abs (8006) ";

    System.out.println(value.replaceAll("[^A-Za-z0-9]", ""));

}

вывод: ChlamydiasppIgGIgMIgAAbs8006

Github: https://github.com/AlbinViju/Learning/blob/master/StripNonAlphaNumericFromString.java

— Альбин
источник

1

Используя Guava, вы можете легко комбинировать различные типы критериев. Для вашего конкретного решения вы можете использовать:

value = CharMatcher.inRange('0', '9')
        .or(CharMatcher.inRange('a', 'z')
        .or(CharMatcher.inRange('A', 'Z'))).retainFrom(value)

— дебютантка
источник

1

CharMatcher от Guava предлагает краткое решение:

output = CharMatcher.javaLetterOrDigit().retainFrom(input);

— Bunarro
источник

Замена всех не алфавитно-цифровых символов на пустые строки

Решение:

Объяснение: