如果您需要Latin-1编码,则可以使用多种方法来消除破折号或其他255以上的代码点(Latin-1中不包含的字符):
>>> u = u'hellou2013world'>>> u.enpre('latin-1', 'replace') # replace it with a question mark'hello?world'>>> u.enpre('latin-1', 'ignore') # ignore it'helloworld'
或自行定制替代品:
>>> u.replace(u'u2013', '-').enpre('latin-1')'hello-world'
如果不需要输出Latin-1,则UTF-8是常见且首选的选择。W3C推荐它,并且很好地编码了所有Unipre代码点:
>>> u.enpre('utf-8')'helloxe2x80x93world'
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)