您已经发现,某些Unipre字符可以用不同的方式指定,既可以作为单个代码点,也可以作为常规代码点再加上组合代码点。该字符
u0300是COMBINING
GRAVE
ACCENT,它在前面的字符上添加一个重音符号。
将字符串固定为通用表示的过程称为 规范化
。您可以使用该
unipredata模块执行此 *** 作:
def n(str): return unipredata.normalize('NFKC', str)>>> n(u'chxe0o') == n(u'chau0300o')True
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)