Регулярное выражение Python - префикс r

Question 1

Может ли кто-нибудь объяснить, почему пример 1 ниже работает, когда rпрефикс не используется? Я думал, что rпрефикс необходимо использовать всякий раз, когда используются escape-последовательности. Пример 2 и пример 3 демонстрируют это.

# example 1
import re
print (re.sub('\s+', ' ', 'hello     there      there'))
# prints 'hello there there' - not expected as r prefix is not used

# example 2
import re
print (re.sub(r'(\b\w+)(\s+\1\b)+', r'\1', 'hello     there      there'))
# prints 'hello     there' - as expected as r prefix is used

# example 3
import re
print (re.sub('(\b\w+)(\s+\1\b)+', '\1', 'hello     there      there'))
# prints 'hello     there      there' - as expected as r prefix is not used

Question 2

Потому что \escape-последовательности начинаются только тогда, когда они являются действительными escape-последовательностями.

>>> '\n'
'\n'
>>> r'\n'
'\\n'
>>> print '\n'


>>> print r'\n'
\n
>>> '\s'
'\\s'
>>> r'\s'
'\\s'
>>> print '\s'
\s
>>> print r'\s'
\s

Если не указан префикс 'r' или 'R', escape-последовательности в строках интерпретируются в соответствии с правилами, аналогичными тем, которые используются в Стандарте C. Распознаваемые escape-последовательности:
Escape Sequence   Meaning Notes
\newline  Ignored  
\\    Backslash (\)    
\'    Single quote (')     
\"    Double quote (")     
\a    ASCII Bell (BEL)     
\b    ASCII Backspace (BS)     
\f    ASCII Formfeed (FF)  
\n    ASCII Linefeed (LF)  
\N{name}  Character named name in the Unicode database (Unicode only)  
\r    ASCII Carriage Return (CR)   
\t    ASCII Horizontal Tab (TAB)   
\uxxxx    Character with 16-bit hex value xxxx (Unicode only) 
\Uxxxxxxxx    Character with 32-bit hex value xxxxxxxx (Unicode only) 
\v    ASCII Vertical Tab (VT)  
\ooo  Character with octal value ooo
\xhh  Character with hex value hh

Никогда не полагайтесь на необработанные строки для литералов пути, поскольку необработанные строки имеют довольно своеобразную внутреннюю работу, которая, как известно, укусила людей в задницу:

Когда присутствует префикс «r» или «R», символ, следующий за обратной косой чертой, включается в строку без изменений, и все обратные косые черты остаются в строке. Например, строковый литерал r"\n"состоит из двух символов: обратной косой черты и строчной буквы «n». Строковые кавычки могут быть экранированы обратной косой чертой, но обратная косая черта остается в строке; например, r"\""это допустимый строковый литерал, состоящий из двух символов: обратной косой черты и двойной кавычки; r"\"не является допустимым строковым литералом (даже необработанная строка не может заканчиваться нечетным числом обратных косых черт). В частности, необработанная строка не может заканчиваться одной обратной косой чертой (поскольку обратная косая черта экранирует следующий символ кавычки). Также обратите внимание, что одиночная обратная косая черта, за которой следует новая строка, интерпретируется как эти два символа как часть строки,

Чтобы лучше проиллюстрировать этот последний пункт:

>>> r'\'
SyntaxError: EOL while scanning string literal
>>> r'\''
"\\'"
>>> '\'
SyntaxError: EOL while scanning string literal
>>> '\''
"'"
>>> 
>>> r'\\'
'\\\\'
>>> '\\'
'\\'
>>> print r'\\'
\\
>>> print r'\'
SyntaxError: EOL while scanning string literal
>>> print '\\'
\

Question 3

'r' означает, что следующая строка является "сырой строкой", т.е. Символы обратной косой черты обрабатываются буквально, а не означают особую обработку следующего символа.

http://docs.python.org/reference/lexical_analysis.html#literals

так '\n'что это одна новая строка
и r'\n'два символа - обратная косая черта и буква 'n'.
Другой способ записать это было бы '\\n'потому, что первая обратная косая черта ускользает от второй

эквивалентный способ написать это

print (re.sub(r'(\b\w+)(\s+\1\b)+', r'\1', 'hello     there      there'))

является

print (re.sub('(\\b\\w+)(\\s+\\1\\b)+', '\\1', 'hello     there      there'))

Из-за того, как Python обрабатывает символы, которые не являются допустимыми escape-символами, не все эти двойные обратные косые черты необходимы - например, '\s'=='\\s'однако то же самое не верно для '\b'и '\\b'. Я предпочитаю быть явным и удваивать все обратные косые черты.

Question 4

Не все последовательности, включающие обратную косую черту, являются escape-последовательностями. \tи \fесть, например, но \sнет. В необработанном строковом литерале все, \что не является частью escape-последовательности, рассматривается как просто другое \:

>>> "\s"
'\\s'
>>> "\t"
'\t'

\b является управляющей последовательностью, поэтому пример 3 не выполняется. (И да, некоторые люди считают такое поведение довольно неудачным.)

Question 5

Попробуй это:

a = '\''
'
a = r'\''
\'
a = "\'"
'
a = r"\'"
\'

Question 6

Посмотрите пример ниже:

print r"123\n123" 
#outputs>>>
123\n123


print "123\n123"
#outputs>>>
123
123