python爬取小姐姐图片(只爬取自己想要的专辑)

python爬取小姐姐图片(只爬取自己想要的专辑),第1张

概述这里写自定义目录标题故事简介准备工作上代码使用方法运行效果写在最后故事简介之前在csdn中看到一个博主爬取福利照片,在其中学到很多,点击查看大佬的文章获取网站。但是他是爬取整个排行榜的图片,但是我只想要某个专辑的图片。经过我仔细观察网页源代码让我发现了每

@H_404_6@这里写自定义目录标题故事简介准备工作上代码使用方法运行效果写在最后

故事简介

之前在csdn中看到一个博主爬取福利照片,在其中学到很多,点击查看大佬的文章获取网站。
但是他是爬取整个排行榜的图片,但是我只想要某个专辑的图片。经过我仔细观察网页源代码让我发现了每个专辑的共同点。话不多说,我们开搞。
注:此方法只适用于爬取上述网站内的专辑内容

准备工作

1.找到想要爬取专辑首页网址 url
eg: https://www.invshen.net/g/34500/1.HTML
这个链接在打开专辑后浏览器搜索输入框内(我的是需要用鼠标点两下才能现出原形)

2.找到此专辑某个图片所在 img 中的 alt
eg: alt=’[XiuRen] 2020.11.02 No.2728 陈小喵_2’
这个需要在首页的源代码中查看(右键点击首页空白处,选择查看网页源代码 or 检查)相信大家都会。这里奉上图片


3.查看专辑页数
每个专辑的页数都不一样,如果想要爬取完整需要知道总共有多少页。
当然,如果想要更加自动化可以自己修改代码,提取网页中的页码数

4.建一个文件夹保存图片
这里建立一个名为 sugar 的文件夹
路径为 : D:\pythonProject1\sugar
你可以建立一个其他的文件夹来保存文件,但要知道路径

上代码
import requestsfrom bs4 import BeautifulSoupimport timeheader = {	"User-Agent": "Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36"}headers = {    "User-Agent": "Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36"    , "Referer": "https://www.invshen.net/"}url_0 = str(input("请输入专辑首页网址前半部分"))alt_0 = str(input("请输入alt前半部分"))for j in range(1, 28):    #获取第1~27页	url = url_0 + str(j) + '.HTML'	response = requests.get(url=url, headers=header)	text = response.text	soup = BeautifulSoup(text, 'lxml')	for i in range(3):		m = i+3*(j-1)		a = alt_0 + str(m)		#图片名,可根据输入的alt_0后半部分名字调整长度(可不调)		b = alt_0[-4:-1] + str(m)		attrs = {			"alt": a		}		img_List = soup.find_all("img", attrs=attrs)		for img in img_List:			img_url = img['src']			print(img_url)			img = requests.get(img_url, headers=headers).content			# 定义要存储图片的路径			path = r"D:\pythonProject1\sugar\%s.jpg" % b			with open(path, 'wb') as f:				f.write(img)				time.sleep(1)
使用方法

1.确保库的安装
需要安装的库:requests , bs4 ,time
库的安装
pip 方法建议参照这篇大佬文章
失败解决方法建议参考这篇大佬文章
pycharm安装建议参考这篇大佬文章
2.输入 “网址” “alt” 的格式

请输入专辑首页网址前半部分https://www.invshen.net/g/34500/请输入alt前半部分[XiuRen] 2020.11.02 No.2728 陈小喵_

即 :url去掉1.HTML
alt去掉2

3.更改代码中专辑的页数
更改这部分代码

for j in range(1, 28):    #获取第1~27页

若专辑只有14页则将28改为15 即(14+1)

4.更改保存路径
将下面这部分代码中的 D:\pythonProject1\sugar 改为你所建文件夹的路径。

运行效果

咳咳,图片爬被和谐就不展示了!

写在最后

由于本混子第一次写博客,难免会有疏忽,希望各位多多包涵。有错误之处请各位斧正。

总结

以上是内存溢出为你收集整理的python爬取小姐姐图片(只爬取自己想要的专辑)全部内容,希望文章能够帮你解决python爬取小姐姐图片(只爬取自己想要的专辑)所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/1188043.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-03
下一篇 2022-06-03

发表评论

登录后才能评论

评论列表(0条)

保存