当使用repr()时,两个看似相同的unicode字符串却有所不同,但是我该如何解决呢?

当使用repr()时,两个看似相同的unicode字符串却有所不同,但是我该如何解决呢?,第1张

当使用repr()时,两个看似相同的unicode字符串却有所不同,但是我该如何解决呢?

您已经发现,某些Unipre字符可以用不同的方式指定,既可以作为单个代码点,也可以作为常规代码点再加上组合代码点。该字符

u0300
是COMBINING
GRAVE
ACCENT

,它在前面的字符上添加一个重音符号。

字符串固定为通用表示的过程称为 规范化
。您可以使用该

unipredata
模块执行此 *** 作:

def n(str):    return unipredata.normalize('NFKC', str)>>> n(u'chxe0o') == n(u'chau0300o')True


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5664364.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存