先把要抓取的网络地址列在单独的List文件中
https://www.oudahe.com/p/22508/lhttps://www.oudahe.com/p/22509/lhttps://www.oudahe.com/p/5599/lhttps://www.oudahe.com/p/8659/l
然后我们来看程序 *** 作,代码如下:
#!/usr/bin/pythonimport osimport sysimport urllib2import redef Cdown_data(fileurl,fpath,@R_301_5819@): if not os.path.exists(@R_301_5819@): os.makedirs(@R_301_5819@) try: getfile = urllib2.urlopen(fileurl) data = getfile.read() f = open(fpath,'w') f.write(data) f.close() except: print with open('u1.List') as lines: for line in lines: URI = line.strip() if '?' and '%' in URI: continue elif URI.count('/') == 2: continue elif URI.count('/') > 2: #print URI,URI.count('/') try: dirpath = URI.rpartition('/')[0].split('//')[1] #filepath = URI.split('//')[1].split('/')[1] filepath = URI.split('//')[1] if filepath: print URI,filepath,dirpath Cdown_data(URI,dirpath) except: print URI,'error'总结
以上是内存溢出为你收集整理的Python使用urllib2模块抓取HTML页面资源的实例分享全部内容,希望文章能够帮你解决Python使用urllib2模块抓取HTML页面资源的实例分享所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)