Python使用urllib2模块抓取HTML页面资源的实例分享

Python使用urllib2模块抓取HTML页面资源的实例分享,第1张

概述先把要抓取的网络地址列在单独的list文件中https://www.oudahe.com/p/22508/lhttps://www.oudahe.com/p/22509/l

先把要抓取的网络地址列在单独的List文件中

https://www.oudahe.com/p/22508/lhttps://www.oudahe.com/p/22509/lhttps://www.oudahe.com/p/5599/lhttps://www.oudahe.com/p/8659/l

然后我们来看程序 *** 作,代码如下:

#!/usr/bin/pythonimport osimport sysimport urllib2import redef Cdown_data(fileurl,fpath,@R_301_5819@): if not os.path.exists(@R_301_5819@):  os.makedirs(@R_301_5819@) try:  getfile = urllib2.urlopen(fileurl)   data = getfile.read()  f = open(fpath,'w')  f.write(data)  f.close() except: print with open('u1.List') as lines: for line in lines:  URI = line.strip()  if '?' and '%' in URI:   continue elif URI.count('/') == 2:   continue  elif URI.count('/') > 2:   #print URI,URI.count('/')  try:    dirpath = URI.rpartition('/')[0].split('//')[1]    #filepath = URI.split('//')[1].split('/')[1]    filepath = URI.split('//')[1]   if filepath:     print URI,filepath,dirpath     Cdown_data(URI,dirpath)   except:    print URI,'error'

总结

以上是内存溢出为你收集整理的Python使用urllib2模块抓取HTML页面资源的实例分享全部内容,希望文章能够帮你解决Python使用urllib2模块抓取HTML页面资源的实例分享所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/langs/1204081.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-04
下一篇 2022-06-04

发表评论

登录后才能评论

评论列表(0条)

保存