python中re.sub处理反向组引用1和10

python中re.sub处理反向组引用1和10,第1张

最近遇到一个问题:如何把ip地址的最后一节用0补齐,比如192.168.1.8变成192.168.1.08(ip地址排序的时候,1.8老是排在1.18、1,28的后面)。于是想到了用正则表达式解决。

python中,re模块的sub函数主要用于替换字符串中的匹配项。

re.sub()方法中含有5个参数:

1、pattern:该参数表示正则中的模式字符串。

2、repl:该参数表示要替换的字符串(支持分组引用),也可以是个函数。

3、string:该参数表示要被处理的原始字符串。

4、count:可选参数,表示是要替换的最大次数。

5、flags:可选参数,表示编译时用的匹配模式(如忽略大小写、多行模式等)。

sub中的repl参数,支持分组的引用,并且支持函数。如果repl是个函数,sub就将匹配结果的match对象,作为参数传递给这个函数。函数的返回结果就是sub的返回值。

针对ip地址末节补0的问题,我写了一条正则表达式的替换语句:

>>> import re
>>> re.sub(r'(\d+\.\d+\.\d+\.)(\d$)',r'\10\2','192.168.1.8')
Traceback (most recent call last):
  File "", line 1, in 
    re.sub(r'(\d+\.\d+\.\d+\.)(\d$)',r'\10\2','192.168.1.8')
  File "D:\Program Files\Python\Python38\lib\re.py", line 210, in sub
    return _compile(pattern, flags).sub(repl, string, count)
  File "D:\Program Files\Python\Python38\lib\re.py", line 327, in _subx
    template = _compile_repl(template, pattern)
  File "D:\Program Files\Python\Python38\lib\re.py", line 318, in _compile_repl
    return sre_parse.parse_template(repl, pattern)
  File "D:\Program Files\Python\Python38\lib\sre_parse.py", line 1036, in parse_template
    addgroup(int(this[1:]), len(this) - 1)
  File "D:\Program Files\Python\Python38\lib\sre_parse.py", line 980, in addgroup
    raise s.error("invalid group reference %d" % index, pos)
re.error: invalid group reference 10 at position 1
>>> 

结果出错。因为没有\10分组!repl参数分辨不出\1和\10。

换成命名分组试试:

>>> re.sub(r'(?P\d+\.\d+\.\d+\.)(?P\d$)',r'?P=pa10?P=pb','192.168.1.8')
'?P=pa10?P=pb'
>>> 

实践证明,repl参数不支持命名分组。

最后想到了函数,repl参数可以是个函数,其传入的参数是sub匹配的match对象。

re中的match对象有很多属性和方法。其中, group(index=0)方法返回值是某个分组的匹配结果。如果index等于0,则是匹配整个正则表达式的字符串。

运行结果如下:

>>> re.sub(r'(\d+\.\d+\.\d+\.)(\d$)',lambda m: m.group(1)+'0'+m.group(2),'192.168.1.8')
'192.168.1.08'
>>> 

输出结果完美!

repl参数:lambda m: m.group(1)+'0'+m.group(2)中的m就是匹配结果的match对象。m.group(1)就是第1个分组的结果(192.168.1.),m.group(2)是第2个分组(8)。在两个分组之间,补个'0'。

lambda在正则表达式中灵活运用,可以提升正则表达式的功效。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/715667.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-25
下一篇 2022-04-25

发表评论

登录后才能评论

评论列表(0条)

保存