【通过链接下载图片有多种方法,本文采用其中一种】
from builtins import len, hasattr, range # 提供对Python的“内置”标识符的直接访问import re # 正则表达式import urllib.request, urllib.error # 提供了一系列用于 *** 作URL的功能import requests # Requests是用python语言基于urllib编写的,采用的是Apache2 licensed开源协议的http库。与urllib相比,Requests更加方便,用来下载图片import os # os模块,里面包含了很多 *** 作文件和目录的函数。
2. 定义主函数和正则表达式主函数:
def main(): url = "https://wenku.baIDu.com/vIEw/ab00294a2079168884868762caaedd3382c4b57c.HTML" # 网页链接 f = open('data.txt', enCoding='utf-8') # 打开txt文件,以utf-8编码解码,不然会出错 urls = f.read() # 读取文件 num = 1 os.makedirs('./test1/', exist_ok=True) # 在目录下新建文件夹 # 因为图片有两种结构,所以有两个正则表达式 pic_1 = re.findall(findimg1, urls) # 使用re库,正则匹配找到图片链接,返回一个列表 pic_2 = re.findall(findimg2, urls) pic_1 = pic_1 + pic_2 # 链接两个列表 print('找到图片,即将开始下载图片...') for each in pic_1: print('正在下载第' + str(num) + '张图片,图片地址:' + str(each)) # 异常处理 try: if each is not None: pic = requests.get(each, timeout=7) # 向服务器发出请求,返回一个包含服务器资源的Response对象,包含从服务器返回的所有的相关资源。 else: continue except BaseException: print('错误,当前图片无法下载') continue else: # 图片保存路径,同时为每一张图片命名 string = './test1/' + str(num) + '.jpg' fp = open(string, 'wb') fp.write(pic.content) fp.close() num += 1
正则表达式:
findimg1 = re.compile(r'<img src="(.*?)" alt="">')findimg2 = re.compile(r'img data-src="(.*?)"')
【有个坑目前还没有填上,用爬虫爬取网页源代码时,只有前三张图片的链接,而后面几十张的图片都没有链接,但是直接查看网页源代码时,却可以看到,所以是直接复制的源代码到 txt ,再打开 txt 文件获取的源代码,有能力之后将会填上】
3.运行结果以上是内存溢出为你收集整理的Python爬虫入门记(5)- 批量下载图片(正则表达式,以百度文库为例)全部内容,希望文章能够帮你解决Python爬虫入门记(5)- 批量下载图片(正则表达式,以百度文库为例)所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)