2 网站地址 https://www.67bqg.com
3 本脚本只为学习,切勿旁答没使用违法用途。
--------------------------------------------------------------------------------------------------------------------------------
Requests
Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库
如果你看过文章关于urllib库的使用,你会运纳发现,其实urllib还是非常不方便的,而Requests它会举蚂比urllib更加方便,可以节约我们大量的工作。(用了requests之后,你基本都不愿意用urllib了)一句话,requests是python实现的最简单易用的HTTP库,建议爬虫使用requests库。
Xpath
XPath即为 XML 路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。
XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于 XPointer 与 XSL 间的语法模型。但是XPath很快的被开发者采用来当作小型 查询语言 。
#正则+request+xpathfrom lxml import etreeimport requestsimport reimport warningsimport timewarnings.filterwarnings("ignore")headers = {"User-Agent" : "Mozilla/5.0 (compatibleMSIE 9.0Windows NT 6.1 Trident/5.0"}def get_urls(URL): Html=requests.get(URL,headers=headers,verify=False) Html.encoding = 'gbk' HTML=etree.HTML(Html.text) results=HTML.xpath('//dd/a/@href') return resultsdef get_items(result): url='https://www.biquyun.com'+str(result) html=requests.get(url,headers=headers,verify=False) html.encoding = 'gbk' pattern=re.compile('(.*?).*?(.*?)',re.S) items='\n'*2+str(re.findall(pattern,html.text)[0][0])+'\n'*2+str(re.findall(pattern,html.text)[0][1]) items=items.replace(' ','').replace('
','') return items def save_to_file(items): with open ("xiaoshuo1.txt",'a',encoding='utf-8') as file: file.write(items) def main(URL): results=get_urls(URL) ii=1 for result in results: items=get_items(result) save_to_file(items) print(str(ii)+' in 1028') ii=ii+1# time.sleep(1)if __name__ == '__main__': start_1 = time.time() URL=( https://www.67bqg.com )' main(URL) print('Done!') end_1 = time.time() print('爬虫时间1:',end_1-start_1)
运行结果(重点)
可以实现的,在linux内搭建好网站,然后在linux服务器配置samba服务,配置好samba后,在windows下面映射绝友薯samba共享文件夹,然后即可通过关关采告如集数并者据存放linux下的网站中。。欢迎分享,转载请注明来源:内存溢出
评论列表(0条)