当使用repr（）时，两个看似相同的unicode字符串却有所不同，但是我该如何解决呢？

影像视觉 • 2022-12-16 • 随笔 • 阅读 26

您已经发现，某些Unipre字符可以用不同的方式指定，既可以作为单个代码点，也可以作为常规代码点再加上组合代码点。该字符

u0300

是COMBINING
GRAVE
ACCENT

，它在前面的字符上添加一个重音符号。

将字符串固定为通用表示的过程称为 规范化
。您可以使用该

unipredata

模块执行此 *** 作：

def n(str):    return unipredata.normalize('NFKC', str)>>> n(u'chxe0o') == n(u'chau0300o')True

欢迎分享，转载请注明来源：内存溢出

字符代码字符串重音有所不同

打赏

微信扫一扫

支付宝扫一扫

上一篇 2022-12-16

下一篇 2022-12-16

登录后才能评论