明确自己需要爬取的网页网址URL
https://bbs.zol.com.cn/第二步
引入requests库,使用request库发起请求
import requests url = "https://bbs.zol.com.cn/" r = requests.get(url) r
此时若显示的状态码不是200,有可能是网站得知用户在使用爬虫程序访问, 禁止你继续访问。故手动添加Headers,在Headers中, User-Agent 项会记录用户的使用系统和浏览器版本,伪装成一个普通的用户
User-Agent查找方式:(查找自己的电脑)
修改后代码:
import requests url = 'http://bbs.zol.com.cn/' headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'} r = requests.get(url, headers = headers) r第三步
# 查看网页的源代码 r.text
若我们采集到的网页源码中的中文部分没有正常解析,有可能是网页编码格式不正确
# 这里显示出的编码是我们解析网页使用的编码 r.encoding # 使用appent_encoding 用软件推测网页编码 r.apparent_encoding # 给encoding属性重新赋值, 用推测的编码去解析网页内容 r.encoding = r.apparent_encoding
然后重新查看网页源码
完整代码import requests # 访问的网址 url = 'http://bbs.zol.com.cn/' # 字典格式的变量 headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'} # 固定语法(和请求的网页相关的内容,都封装在了r中) r = requests.get(url, headers = headers) # 给encoding属性重新赋值, 用推测的编码去解析网页内容 r.encoding = r.apparent_encoding #查看网页源代码 r.text # 访问的消息头 r.headers # 获取状态码 r.status_code
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)