目录
工具准备
一、通过pycharm安装requests库
二、步骤
1.引入库
2.读入数据
总结
工具准备
- python
- python中requests库,os库
- 图片地址
一、通过pycharm安装requests库
File---->Settings
二、步骤 1.引入库
代码如下:
# 需要用到requests库来获取图片地址,用os库打开和写入文件。所以首先要先引用这两个库。 import requests import os2.读入数据
代码如下:
# url图片的链接 url="http://www.kaotop.com/file/tupian/20220517/0fmt=jpg&size=50&h=487&w=685&ppv=1.jpg"
该处使用的url网络请求的数据。图片链接自行替换。
# 把requests请求信息伪装成一个网页
h={
'User-Agent: Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Mobile Safari/537.36'
}
# 定义一个根目录,定义为D盘下的A文件夹。这里的"\",因为\是转义符,输出'\'要写成'\'
d='D:\A\'
# 定义图片的保存路径,url.split('=')[-1]的意思是截取图片链接中最后一个=后的字符为图片名字
path=d+url.split('=')[-1]
# 判断目录是否存在,如果不存在建立目录
if not os.path.exists(d):
os.mkdir(d)
# 通过requests.get获得图片
r=requests.get(url)
r.raise_for_status()
# 打开要存储的文件,然后将r.content返回的内容写入文件中,因为图片是二进制格式,所以用‘wb’,写完内容后关闭文件,提示图片保存成功
with open(path,'wb') as f:
f.write(r.content)
f.close()
print("保存成功")
3.requests伪装成浏览器发起Http请求
requests库在发送请求时,如果服务器设置了反爬虫,会导致返回错误,可以通过设置headers伪装成浏览器绕过一般服务器的识别。
“User-Agent”头部信息的获取:谷歌浏览器打开目标网页,F12进入调试页面,切换至【NetWork】找到“User-Agent”复制
总结
requests 模块是对 urllib 的封装,它是一种伪装成浏览器对网页服务器发起请求从而获得响应的爬虫方式
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)