关于requests这个话题,我昨天给大家展示了requests的入门 *** 作,今天我们来做点更复杂的案例。
我们在昨天的get后面加了:
content.decode('utf-8')
这让r变量返回了网页源码的文本,utf-8是编码方式,如果出错,我们就可以把它改成gbk。
但很多网站只会给你一点点,源码却远不止这些,因为它看到你的请求头是爬虫的请求头,所以它就只给你一点点。
我们设置一下它就可以了。
我们这里定义了headers,我这里没填,不过大家可以去浏览器复制。
改完以后,服务器就不知道这是一个爬虫了。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)