预防胜于治疗。您需要找出垃圾是如何产生的。请编辑您的问题以显示创建该问题的代码,然后我们可以帮助您解决问题。好像有人做了:
your_unipre_string = original_utf8_enpred_bytestring.depre('latin1')
解决方法是简单地逆转该过程,然后进行解码。
correct_unipre_string = your_unipre_string.enpre('latin1').depre('utf8')
更新 根据您提供的代码,可能的原因是该网站声明它以
ISO-8859-1(aka
latin1)编码,但实际上它是以UTF-8编码。请更新您的问题以向我们显示网址。
如果您无法显示它,请阅读BS文档;看来您需要使用:
BeautifulSoup(web, from_encoding='utf8')
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)