Requests和Xpath笔趣阁小说采集爬取教程

Requests和Xpath笔趣阁小说采集爬取教程,第1张

1 爬取网站 笔趣阁小说

2 网站地址 https://www.67bqg.com

3 本脚本只为学习,切勿旁答没使用违法用途。

--------------------------------------------------------------------------------------------------------------------------------

Requests

Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库

如果你看过文章关于urllib库的使用,你会运纳发现,其实urllib还是非常不方便的,而Requests它会举蚂比urllib更加方便,可以节约我们大量的工作。(用了requests之后,你基本都不愿意用urllib了)一句话,requests是python实现的最简单易用的HTTP库,建议爬虫使用requests库。

Xpath

XPath即为 XML 路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。

XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于 XPointer 与 XSL 间的语法模型。但是XPath很快的被开发者采用来当作小型 查询语言 。

#正则+request+xpathfrom lxml import etreeimport requestsimport reimport warningsimport timewarnings.filterwarnings("ignore")headers = {"User-Agent" : "Mozilla/5.0 (compatibleMSIE 9.0Windows NT 6.1 Trident/5.0"}def get_urls(URL):    Html=requests.get(URL,headers=headers,verify=False)    Html.encoding = 'gbk'    HTML=etree.HTML(Html.text)    results=HTML.xpath('//dd/a/@href')    return resultsdef get_items(result):    url='https://www.biquyun.com'+str(result)    html=requests.get(url,headers=headers,verify=False)    html.encoding = 'gbk'    pattern=re.compile('(.*?).*?(.*?)',re.S)    items='\n'*2+str(re.findall(pattern,html.text)[0][0])+'\n'*2+str(re.findall(pattern,html.text)[0][1])    items=items.replace('    ','').replace('

','')    return items    def save_to_file(items):    with open ("xiaoshuo1.txt",'a',encoding='utf-8') as file:        file.write(items)        def main(URL):    results=get_urls(URL)    ii=1    for result in results:        items=get_items(result)        save_to_file(items)        print(str(ii)+' in 1028')        ii=ii+1#        time.sleep(1)if __name__ == '__main__':    start_1 = time.time()    URL=( https://www.67bqg.com )'    main(URL)    print('Done!')    end_1 = time.time()    print('爬虫时间1:',end_1-start_1)

运行结果(重点)

可以实现的,在linux内搭建好网站,然后在linux服务器配置samba服务,配置好samba后,在windows下面映射绝友薯samba共享文件夹,然后即可通过关关采告如集数并者据存放linux下的网站中。。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/12464448.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-25
下一篇 2023-05-25

发表评论

登录后才能评论

评论列表(0条)

保存