最近遇到一个问题:如何把ip地址的最后一节用0补齐,比如192.168.1.8变成192.168.1.08(ip地址排序的时候,1.8老是排在1.18、1,28的后面)。于是想到了用正则表达式解决。
在python中,re模块的sub函数主要用于替换字符串中的匹配项。
re.sub()方法中含有5个参数:
1、pattern:该参数表示正则中的模式字符串。
2、repl:该参数表示要替换的字符串(支持分组引用),也可以是个函数。
3、string:该参数表示要被处理的原始字符串。
4、count:可选参数,表示是要替换的最大次数。
5、flags:可选参数,表示编译时用的匹配模式(如忽略大小写、多行模式等)。
sub中的repl参数,支持分组的引用,并且支持函数。如果repl是个函数,sub就将匹配结果的match对象,作为参数传递给这个函数。函数的返回结果就是sub的返回值。
针对ip地址末节补0的问题,我写了一条正则表达式的替换语句:
>>> import re
>>> re.sub(r'(\d+\.\d+\.\d+\.)(\d$)',r'\10\2','192.168.1.8')
Traceback (most recent call last):
File "", line 1, in
re.sub(r'(\d+\.\d+\.\d+\.)(\d$)',r'\10\2','192.168.1.8')
File "D:\Program Files\Python\Python38\lib\re.py", line 210, in sub
return _compile(pattern, flags).sub(repl, string, count)
File "D:\Program Files\Python\Python38\lib\re.py", line 327, in _subx
template = _compile_repl(template, pattern)
File "D:\Program Files\Python\Python38\lib\re.py", line 318, in _compile_repl
return sre_parse.parse_template(repl, pattern)
File "D:\Program Files\Python\Python38\lib\sre_parse.py", line 1036, in parse_template
addgroup(int(this[1:]), len(this) - 1)
File "D:\Program Files\Python\Python38\lib\sre_parse.py", line 980, in addgroup
raise s.error("invalid group reference %d" % index, pos)
re.error: invalid group reference 10 at position 1
>>>
结果出错。因为没有\10分组!repl参数分辨不出\1和\10。
换成命名分组试试:
>>> re.sub(r'(?P\d+\.\d+\.\d+\.)(?P\d$)',r'?P=pa10?P=pb','192.168.1.8')
'?P=pa10?P=pb'
>>>
实践证明,repl参数不支持命名分组。
最后想到了函数,repl参数可以是个函数,其传入的参数是sub匹配的match对象。
re中的match对象有很多属性和方法。其中, group(index=0)方法返回值是某个分组的匹配结果。如果index等于0,则是匹配整个正则表达式的字符串。
运行结果如下:
>>> re.sub(r'(\d+\.\d+\.\d+\.)(\d$)',lambda m: m.group(1)+'0'+m.group(2),'192.168.1.8')
'192.168.1.08'
>>>
输出结果完美!
repl参数:lambda m: m.group(1)+'0'+m.group(2)中的m就是匹配结果的match对象。m.group(1)就是第1个分组的结果(192.168.1.),m.group(2)是第2个分组(8)。在两个分组之间,补个'0'。
lambda在正则表达式中灵活运用,可以提升正则表达式的功效。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)