爬虫小练习01—获取网站源码

爬虫小练习01—获取网站源码,第1张

爬虫小练习01—获取网站源码 第一步

明确自己需要爬取的网页网址URL

https://bbs.zol.com.cn/

第二步

引入requests库,使用request库发起请求

import requests
url = "https://bbs.zol.com.cn/"
r = requests.get(url)
r

此时若显示的状态码不是200,有可能是网站得知用户在使用爬虫程序访问, 禁止你继续访问。故手动添加Headers,在Headers中, User-Agent 项会记录用户的使用系统和浏览器版本,伪装成一个普通的用户
User-Agent查找方式:(查找自己的电脑)

修改后代码:

import requests
url = 'http://bbs.zol.com.cn/'
headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'}
r = requests.get(url, headers = headers)
r

第三步
# 查看网页的源代码
r.text

若我们采集到的网页源码中的中文部分没有正常解析,有可能是网页编码格式不正确

# 这里显示出的编码是我们解析网页使用的编码
r.encoding
# 使用appent_encoding  用软件推测网页编码
r.apparent_encoding
# 给encoding属性重新赋值, 用推测的编码去解析网页内容
r.encoding = r.apparent_encoding

然后重新查看网页源码

完整代码
import requests
# 访问的网址
url = 'http://bbs.zol.com.cn/'
# 字典格式的变量
headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'}
# 固定语法(和请求的网页相关的内容,都封装在了r中)
r = requests.get(url, headers = headers)
# 给encoding属性重新赋值, 用推测的编码去解析网页内容
r.encoding = r.apparent_encoding
#查看网页源代码
r.text
# 访问的消息头
r.headers
# 获取状态码
r.status_code

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zaji/5701269.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存