requests-网页源码和headers

requests-网页源码和headers,第1张

    关于requests这个话题,我昨天给大家展示了requests的入门 *** 作,今天我们来做点更复杂的案例。


 我们在昨天的get后面加了:

content.decode('utf-8')

这让r变量返回了网页源码的文本,utf-8是编码方式,如果出错,我们就可以把它改成gbk。


    但很多网站只会给你一点点,源码却远不止这些,因为它看到你的请求头是爬虫的请求头,所以它就只给你一点点。


我们设置一下它就可以了。


 我们这里定义了headers,我这里没填,不过大家可以去浏览器复制。


改完以后,服务器就不知道这是一个爬虫了。


 

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/langs/577887.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-11
下一篇 2022-04-11

发表评论

登录后才能评论

评论列表(0条)

保存