python爬虫抓取到的数据用网页打开时是乱码，怎么解决_随笔

写爬虫是经常会遇到这样的问题，这种问题很显然是编码问题，解决的方法其实也不难。

你可以用下面的两个方法来解决你的编码问题：

第一种是，通过浏览器打开你写的html之后，找到浏览器中的文字编码修改，将编码改为Unicode编码，即可修复。

第二种方法是修改你的前端代码：在你的代码output_html方法中，规定网页的文字编码即可

html格式的文件默认的打开方式时浏览器，如果你的电脑上没有安装浏览器的话是打不开的。或者你可以选中文件，右键选择打开方式，可以以文本文件的打开，打开之后看到的就是html文件的源码

Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。

python3 区分了 unicode str 和 byte arrary，并且默认编码不再是 ascii

关于编码问题的终极解决方案：

在python的Lib\site-packages文件夹下新建一个sitecustomize.py

文件，输入：

import sys

sys.setdefaultencoding('gb2312')

这里要注意一点是：这里面你可以设置GBK或者utf8 或者其他类型的编码格式，不一定非要gb2312，主要看你 *** 作的环境需要什么编码格式

欢迎分享，转载请注明来源：内存溢出

python爬虫抓取到的数据用网页打开时是乱码，怎么解决