requests-网页源码和headers

code • 2022-4-11 • python • 阅读 73

关于requests这个话题，我昨天给大家展示了requests的入门 *** 作，今天我们来做点更复杂的案例。

我们在昨天的get后面加了：

content.decode('utf-8')

这让r变量返回了网页源码的文本，utf-8是编码方式，如果出错，我们就可以把它改成gbk。

但很多网站只会给你一点点，源码却远不止这些，因为它看到你的请求头是爬虫的请求头，所以它就只给你一点点。

我们设置一下它就可以了。

我们这里定义了headers，我这里没填，不过大家可以去浏览器复制。

改完以后，服务器就不知道这是一个爬虫了。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/langs/577887.html

python 爬虫网络

打赏

微信扫一扫

支付宝扫一扫

code 管理员组

Python实现KMP算法

上一篇 2022-04-11

NLP LDA 主题模型实践（使用中文）

下一篇 2022-04-11

发表评论

登录后才能评论

评论列表（0条）