之前在csdn中看到一个博主爬取福利照片,在其中学到很多,点击查看大佬的文章获取网站。
但是他是爬取整个排行榜的图片,但是我只想要某个专辑的图片。经过我仔细观察网页源代码让我发现了每个专辑的共同点。话不多说,我们开搞。
注:此方法只适用于爬取上述网站内的专辑内容
1.找到想要爬取专辑首页网址 url
eg: https://www.invshen.net/g/34500/1.HTML
这个链接在打开专辑后浏览器搜索输入框内(我的是需要用鼠标点两下才能现出原形)
2.找到此专辑某个图片所在 img 中的 alt
eg: alt=’[XiuRen] 2020.11.02 No.2728 陈小喵_2’
这个需要在首页的源代码中查看(右键点击首页空白处,选择查看网页源代码 or 检查)相信大家都会。这里奉上图片
每个专辑的页数都不一样,如果想要爬取完整需要知道总共有多少页。
当然,如果想要更加自动化可以自己修改代码,提取网页中的页码数
4.建一个文件夹保存图片
这里建立一个名为 sugar 的文件夹
路径为 : D:\pythonProject1\sugar
你可以建立一个其他的文件夹来保存文件,但要知道路径
import requestsfrom bs4 import BeautifulSoupimport timeheader = { "User-Agent": "Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36"}headers = { "User-Agent": "Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36" , "Referer": "https://www.invshen.net/"}url_0 = str(input("请输入专辑首页网址前半部分"))alt_0 = str(input("请输入alt前半部分"))for j in range(1, 28): #获取第1~27页 url = url_0 + str(j) + '.HTML' response = requests.get(url=url, headers=header) text = response.text soup = BeautifulSoup(text, 'lxml') for i in range(3): m = i+3*(j-1) a = alt_0 + str(m) #图片名,可根据输入的alt_0后半部分名字调整长度(可不调) b = alt_0[-4:-1] + str(m) attrs = { "alt": a } img_List = soup.find_all("img", attrs=attrs) for img in img_List: img_url = img['src'] print(img_url) img = requests.get(img_url, headers=headers).content # 定义要存储图片的路径 path = r"D:\pythonProject1\sugar\%s.jpg" % b with open(path, 'wb') as f: f.write(img) time.sleep(1)
使用方法1.确保库的安装
需要安装的库:requests , bs4 ,time
库的安装
pip 方法建议参照这篇大佬文章
失败解决方法建议参考这篇大佬文章
pycharm安装建议参考这篇大佬文章
2.输入 “网址” “alt” 的格式
请输入专辑首页网址前半部分https://www.invshen.net/g/34500/请输入alt前半部分[XiuRen] 2020.11.02 No.2728 陈小喵_
即 :url去掉1.HTML
alt去掉2
3.更改代码中专辑的页数
更改这部分代码
for j in range(1, 28): #获取第1~27页
若专辑只有14页则将28改为15 即(14+1)
4.更改保存路径
将下面这部分代码中的 D:\pythonProject1\sugar 改为你所建文件夹的路径。
咳咳,图片爬被和谐就不展示了!
由于本混子第一次写博客,难免会有疏忽,希望各位多多包涵。有错误之处请各位斧正。
总结以上是内存溢出为你收集整理的python爬取小姐姐图片(只爬取自己想要的专辑)全部内容,希望文章能够帮你解决python爬取小姐姐图片(只爬取自己想要的专辑)所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)