有些时候我们需要用到百度文库的某些文章时,却发现需要会员才能下载,很难受,其实我们可以通过爬虫的方式来获取到我们所需要的文本。
工具:python3.7+selenium+任意一款编辑器
前期准备:可以正常使用的浏览器,这里推荐Chrome,一个与浏览器同版本的驱动,这里提供一个下载驱动的链接https://chromedriver.storage.googleapis.com/77.0.3865.40/chromedriver_win32.zip
首先我们来看一下百度文库中这一篇文章https://wenku.baidu.com/view/5b1ef2cfbf23482fb4daa58da0116c175e0e1e0a.html
可以看到,在文章的最末尾需要我们来点击继续阅读才能爬取到所有的文字,不然我们只能获取到一部分的文字。这给我们的爬虫带来了一些困扰。因此,我们需要借助selenium这一个自动化工具来帮助我们的程序完成这一 *** 作。
from selenium import webdriverfrom selenium.webdriver.common.keys import Keysimport timefrom bs4 import BeautifulSoupimport redriver = webdriver.Chrome(‘D:/chromedriver.exe‘)driver.get("https://wenku.baIDu.com/vIEw/5b1ef2cfbf23482fb4daa58da0116c175e0e1e0a.HTML")
我们先通过驱动器来请求这个页面,
可以看到,已经请求成功这个页面了。接下来需要我们通过驱动来点击继续阅读来加载到这篇文章的所有文字。我们通过f12审查元素,看看
然后通过selenium的定位功能,定位到左边黄色区域所在的位置,调用驱动器进行点击
driver = webdriver.Chrome(‘D:/chromedriver.exe‘)driver.get("https://wenku.baIDu.com/vIEw/5b1ef2cfbf23482fb4daa58da0116c175e0e1e0a.HTML")driver.find_element_by_xpath("//*[@ID=‘HTML-reader-go-more‘]/div[2]/div[1]/p").click()
然后执行看看
黄字是报错的信息,显示的是有另外一个元素接受了点击的调用。可能是屏幕没有滑动到下方,直接点击被遮盖了。所以我们要通过驱动器先将浏览器滑动到底部,再点击继续阅读from selenium import webdriverfrom selenium.webdriver.common.keys import Keysimport timefrom bs4 import BeautifulSoupimport redriver = webdriver.Chrome(‘D:/chromedriver.exe‘)driver.get("https://wenku.baIDu.com/vIEw/5b1ef2cfbf23482fb4daa58da0116c175e0e1e0a.HTML")page=driver.find_element_by_xpath("//*[@ID=‘HTML-reader-go-more‘]/div[2]/div[1]/p")driver.execute_script(‘arguments[0].scrollintoVIEw();‘,page) #拖动到可见的元素去page=driver.find_element_by_xpath("//*[@ID=‘HTML-reader-go-more‘]/div[2]/div[1]/p").click()
先获取到继续阅读所在页面的位置,然后使用
driver.execute_script(‘arguments[0].scrollintoVIEw();‘,page) #拖动到可见的元素去方法将页面滚动到可以点击的位置
这样就获取到了整个完整页面,在使用beautifulsoup进行解析
HTML=driver.page_sourcebf1 = BeautifulSoup(HTML,‘lxml‘)result=bf1.find_all(class_=‘page-count‘)num=BeautifulSoup(str(result),‘lxml‘).span.stringcount=eval(repr(num).replace(‘/‘,‘‘))page_count=int(count)for i in range(1,page_count+1): result=bf1.find_all(ID="pageNo-%d"%(i)) for each_result in result: bf2 = BeautifulSoup(str(each_result),‘lxml‘) texts = bf2.find_all(‘p‘) for each_text in texts: main_body = BeautifulSoup(str(each_text),‘lxml‘) s=main_body.get_text()
最后在写入txt文档
f=open("baIDuwenku.txt","a",enCoding="utf-8") f.write(s) f.flush() f.close()总结
以上是内存溢出为你收集整理的python+selenium爬取百度文库不能下载的word文档全部内容,希望文章能够帮你解决python+selenium爬取百度文库不能下载的word文档所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)