本文实例讲述了Python实现可获取网易页面所有文本信息的网易网络爬虫功能。分享给大家供大家参考,具体如下:
#Coding=utf-8#---------------------------------------# 程序:网易爬虫# 作者:ewang# 日期:2016-7-6# 语言:Python 2.7# 功能:获取网易页面中的文本信息并保存到TXT文件中。#---------------------------------------import stringimport urllib2import reimport osclass WangYi_SpIDer: #申明相关属性 def __init__(self): #给wangyiUrl属性赋值 self.wangyiUrl="http://www.163.com/" #用来保存页面中文字信息 self.pageinfor=[] print u'已经启动网易爬虫,爬爬...' #初始化加载页面并将其转码存储 def wangyi(self): #读取页面的原始信息并将其从gbk转码 Page=urllib2.urlopen(self.wangyiUrl).read().decode('gbk') #获取页面标题 Title=self.find_Title(Page) print u'网页名称:'+Title #获取页面中文本信息 self.save_infor(Title) #查找页面标题 def find_Title(self,page): #匹配<Title>xxxx</Title> myTitle=re.search(r'<Title>(.*?)</Title>',page,re.S) #初始化标题名为暂无标题 Title=u'暂无标题' #如果标题存在把标题赋值给Title if myTitle: #(.*?)这称作一个group,组是从1开始 Title=myTitle.group(1) else: print u'爬虫报告:无法加载网页标题...' return Title #保存页面信息 def save_infor(self,Title): #加载页面文本信息到数组中 self.get_infor() #创建并打开本地文件 f=open(Title+'.txt','w+') #把获取的页面信息写入文件中 f.writelines(self.pageinfor) #关闭打开的文件 f.close() print u'爬虫报告:文件'+Title+'.txt'+u'已经下载:'+os.getcwd() print u'按任意键退出...' raw_input() #获取页面源码并将其存储到数组中 def get_infor(self): #获取页面中的源码 page=urllib2.urlopen(self.wangyiUrl).read() #把页面中的内容gbk解码然后获取页面中所有的文本信息 self.deal_infor(page.decode('gbk')) #从页面代码中获取所需文信息 def deal_infor(self,page): #获取<em >XXX</em>的文本信息XXX emTagItems=re.findall("<em.*?>(\W+?)</em>",re.S) #获取<span>XXXX</a>的文本信息XXXX spanTagItems=re.findall("<span>(\W+?)</span>",re.S) #获取<a .*>XXXX</a>的文本信息XXXX aTagItems=re.findall("<a.*?>(\W+?)</a>",re.S) #把em tag中获取的文本信息添加到数组pageinfor中 for emItem in emTagItems: #对获取的文本信息用gbk进行编码 self.pageinfor.append(emItem.encode('gbk')+'\n') #把span tag中获取的文本信息添加到数组pageinfor中 for spanItem in spanTagItems: #对获取的文本信息用gbk进行编码 self.pageinfor.append(spanItem.encode('gbk')+'\n') #把a tag中获取的文本信息添加到数组pageinfor中 for aItem in aTagItems: #对获取的文本信息用gbk进行编码 self.pageinfor.append(aItem.encode('gbk')+'\n')#------------程序入口处----------------print u"""#---------------------------------------# 程序:网易爬虫# 作者:ewang# 日期:2016-7-6# 语言:Python 2.7# 功能:获取网易页面中的文本信息并保存到TXT文件中#--------------------------------------------------"""wangyiSpIDer=WangYi_SpIDer()wangyiSpIDer.wangyi()
更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串 *** 作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录 *** 作技巧汇总》
希望本文所述对大家Python程序设计有所帮助。
您可能感兴趣的文章:使用Python编写简单网络爬虫抓取视频下载资源以Python的Pyspider为例剖析搜索引擎的网络爬虫实现方法python3使用urllib模块制作网络爬虫python使用rabbitmq实现网络爬虫示例基于Python实现的百度贴吧网络爬虫实例python网络爬虫采集联想词示例详解Python网络爬虫功能的基本写法Python网络爬虫项目:内容提取器的定义Python3网络爬虫之使用User Agent和代理IP隐藏身份python模拟新浪微博登陆功能(新浪微博爬虫)python3简单实现微信爬虫Python实现爬取知乎神回复简单爬虫代码分享 总结以上是内存溢出为你收集整理的Python实现可获取网易页面所有文本信息的网易网络爬虫功能示例全部内容,希望文章能够帮你解决Python实现可获取网易页面所有文本信息的网易网络爬虫功能示例所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)