正则表达式匹配中的Umlauts（通过语言环境？）

联通学院 • 2022-12-16 • 随笔 • 阅读 37

您是否尝试过使用文档中

re.UNICODE

所述的标志？

>>> re.findall(r'w+', 'abc def güi jkl', re.UNICODE)['abc', 'def', 'gxc3xbci', 'jkl']

快速搜索指向该线程，它给出了一些解释：

re.LOCALE只是将字符传递给基础C库。它实际上仅适用于每个字符具有1个字节的字节串。UTF-8将ASCII范围之外的代码点编码为每个代码点多个字节，并且re模块将把这些字节中的每一个视为单独的字符。

欢迎分享，转载请注明来源：内存溢出

字节字符代码线程匹配

打赏

微信扫一扫

支付宝扫一扫

上一篇 2022-12-16

下一篇 2022-12-16

登录后才能评论