Recuperando manipulação python 3.6 de re.sub () com correspondências de comprimento zero no python 3.7
manipulação de correspondências de comprimento zero foi alterada com o python 3.7. Considere o seguinte com python 3.6 (e anterior):
>>> import re
>>> print(re.sub('a*', 'x', 'bac'))
xbxcx
>>> print(re.sub('.*', 'x', 'bac'))
x
Fazemos o seguinte com python 3.7:
>>> import re
>>> print(re.sub('a*', 'x', 'bac'))
xbxxcx
>>> print(re.sub('.*', 'x', 'bac'))
xx
Entendo que esse é o comportamento padrão do PCRE. Além disso, re.finditer () parece sempre ter detectado a correspondência adicional:
>>> for m in re.finditer('a*', 'bac'):
... print(m.start(0), m.end(0), m.group(0))
...
0 0
1 2 a
2 2
3 3
Dito isto, estou interessado em recuperar o comportamento do python 3.6 (isto é para um projeto de hobby implementandosed em python).
Eu posso vir com a seguinte solução:
def sub36(regex, replacement, string):
compiled = re.compile(regex)
class Match(object):
def __init__(self):
self.prevmatch = None
def __call__(self, match):
try:
if match.group(0) == '' and self.prevmatch and match.start(0) == self.prevmatch.end(0):
return ''
else:
return re._expand(compiled, match, replacement)
finally:
self.prevmatch = match
return compiled.sub(Match(), string)
que dá
>>> print(re.sub('a*', 'x', 'bac'))
xbxxcx
>>> print(sub36('a*', 'x', 'bac'))
xbxcx
>>> print(re.sub('.*', 'x', 'bac'))
xx
>>> print(sub36('.*', 'x', 'bac'))
x
No entanto, isso parece muito elaborado para esses exemplo
Qual seria a maneira correta de implementar o comportamento do python 3.6 para correspondências de comprimento zero re.sub () com python 3.