=txt=requests.get(url).content.decode() m1=re.compile(rm2=re.compile(rhref="(.+\.HTML)">(.+)raw=m2.findall(txt) sanguo= i 2],url+i[1]])
<span >#
<span >print(sanguo)<span >
m3=re.compile(r<span >'<span >
(.+)
<span >',re.S) <span >#<span >每章节小说内容m4=re.compile(r<span >'<span >
<span >') <span >#<span >
小说内容中的符号
m5=re.compile(r<span >'<span > <span >'<span >)
with open(<span >'<span >中国合伙人1.txt<span >',<span >'<span >a<span >'<span >) as f:
<span >for i <span >in<span > sanguo:
i_url=i[1] <span >#<span >i[1]为小说章节url
<span >print(<span >"<span >正在下载-----><span >",i[0]) <span >#<span >i[0]为小说章节目录
r_nr=requests.get(i_url).content.decode(<span >'<span >gbk<span >'<span >)
n_nr=<span >m3.findall(r_nr)
<span >#<span >print(n_nr)
n=m4.sub(<span >'',n_nr[0]) <span >#<span >把n_nr[0]中"
"替换为空
n2=m5.sub(<span >''<span >,n)
f.write(<span >'<span >\n<span >'+i[0]+<span >'<span >\n<span >') <span >#<span >把小说的目录写入文件
f.write(n2)
运行效果如下:
保存的内容如下:
总结以上是内存溢出为你收集整理的python爬虫之小说网站--下载小说(正则表达式)全部内容,希望文章能够帮你解决python爬虫之小说网站--下载小说(正则表达式)所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)