selenium,time,requests,re
这个为我们要爬取的网址:
from selenium import webdriver import time from selenium.webdriver.chrome.options import Options import re import requests # 获取网页 drive.get('https://wenku.baidu.com/view/0ab1c8c04028915f804dc28b?fr=xueshu20001') # 休息1秒让网页加载出来 time.sleep(1)
- 右键检查
- 点击左上角(画圈圈的地方)
- 再点击想要找的图片
- 找到对应的elements
- 右键copy xpath
element = drive.find_element_by_xpath('//*[@id="pageNo-1"]/div[3]/div/div') time.sleep(1) # 利用get_attribute获取div里面的属性 ele = element.get_attribute('style') # 接着用正则找到要用到的url # 注意:'(',')'这两个主要是为了取消转义因为()在正则中是分组的意思 pdf_url = re.match('background-image: url("(.*?)");', ele).group(1) res = requests.get(pdf_url) # 将获取到的图片保存起来 with open('百度文档1.png', 'wb') as f: f.write(res.content) time.sleep(4) # 退出浏览器 drive.quit()
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)