您是否尝试过使用文档中
re.UNICODE所述的标志?
>>> re.findall(r'w+', 'abc def güi jkl', re.UNICODE)['abc', 'def', 'gxc3xbci', 'jkl']
快速搜索指向该线程,它给出了一些解释:
re.LOCALE只是将字符传递给基础C库。它实际上仅适用于每个字符具有1个字节的字节串。UTF-8将ASCII范围之外的代码点编码为每个代码点多个字节,并且re模块将把这些字节中的每一个视为单独的字符。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)