Requests和Xpath笔趣阁小说采集爬取教程_软件运维

1 爬取网站笔趣阁小说

2 网站地址 https://www.67bqg.com

3 本脚本只为学习，切勿旁答没使用违法用途。

--------------------------------------------------------------------------------------------------------------------------------

Requests

Requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库

如果你看过文章关于urllib库的使用，你会运纳发现，其实urllib还是非常不方便的，而Requests它会举蚂比urllib更加方便，可以节约我们大量的工作。（用了requests之后，你基本都不愿意用urllib了）一句话，requests是python实现的最简单易用的HTTP库，建议爬虫使用requests库。

Xpath

XPath即为 XML 路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。

XPath基于XML的树状结构，提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于 XPointer 与 XSL 间的语法模型。但是XPath很快的被开发者采用来当作小型查询语言。

#正则+request+xpathfrom lxml import etreeimport requestsimport reimport warningsimport timewarnings.filterwarnings("ignore")headers = {"User-Agent" : "Mozilla/5.0 (compatibleMSIE 9.0Windows NT 6.1 Trident/5.0"}def get_urls(URL): Html=requests.get(URL,headers=headers,verify=False) Html.encoding = 'gbk' HTML=etree.HTML(Html.text) results=HTML.xpath('//dd/a/@href') return resultsdef get_items(result): url='https://www.biquyun.com'+str(result) html=requests.get(url,headers=headers,verify=False) html.encoding = 'gbk' pattern=re.compile('(.*?).*?(.*?)',re.S) items='\n'*2+str(re.findall(pattern,html.text)[0][0])+'\n'*2+str(re.findall(pattern,html.text)[0][1]) items=items.replace(' ','').replace('

','') return items def save_to_file(items): with open ("xiaoshuo1.txt",'a',encoding='utf-8') as file: file.write(items) def main(URL): results=get_urls(URL) ii=1 for result in results: items=get_items(result) save_to_file(items) print(str(ii)+' in 1028') ii=ii+1# time.sleep(1)if __name__ == '__main__': start_1 = time.time() URL=（ https://www.67bqg.com ）' main(URL) print('Done!') end_1 = time.time() print('爬虫时间1:',end_1-start_1)

运行结果（重点）

可以实现的，在linux内搭建好网站，然后在linux服务器配置samba服务，配置好samba后，在windows下面映射绝友薯samba共享文件夹，然后即可通过关关采告如集数并者据存放linux下的网站中。。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/12464448.html

Requests和Xpath笔趣阁小说采集爬取教程

发表评论

评论列表（0条）