Python爬虫案例——百度贴吧数据采集！最适合零基础的案例之一_python

概述通过python实现百度贴吧页面的内容采集是相对来说比较容易的，因为百度贴吧不需要登陆，不需要cookie，不需要设置http的MIME头
通过python实现百度贴吧页面的内容采集是相对来说比较容易的，因为百度贴吧不需要登陆，不需要cookie，不需要设置http的MIME头
本案例使用python实现百度贴吧数据采集，获取百度贴吧的文章内容，楼层
百度贴吧网址比如：http://tIEba.baIDu.com/p/3138733512?see_lz=1&pn=1，这是一个关于NBA50大的盘点，分析一下这个地址。
 http:// 代表资源传输使用http协议 tIEba.baIDu.com 是百度的二级域名，指向百度贴吧的服务器。 /p/3138733512 是服务器某个资源，即这个帖子的地址定位符 see_lz和pn是该URL的两个参数，分别代表了只看楼主和帖子页码，等于1表示该条件为真进群：548377875所以我们可以把URL分为两部分，一部分为基础部分，一部分为参数部分。
例如，上面的URL我们划分基础部分是
http://tIEba.baIDu.com/p/3138733512
参数部分是 ?see_lz=1&pn=1
爬虫过程比较简单，基本还是围绕：请求、正则解析、打印存储
注意：python3.4以后中，将urllib2、urlparse、robotparser并入了urllib模块，并且修改了urllib模块，其中包含了5个子模块，每个子模块中的常用方法如下：
 python3中的库 包含了子类（python2中）urllib.error: ContentTooShortError;URLError;httpErrorurllib.parse： urlparse;_splitparams;urlsplit;urlunparse;urlunsplit;urljoin;urldefrag;unquote_to_bytes;unquote;parse_qs;parse_qsl;unquote_plus;quote;quote_plus;quote_from_bytes;urlencode;to_bytes;unwrap;splittype;splithost;splituser;splitpasswd;splitport等；urllib.request: urlopen; install_opener; urlretrIEve; urlcleanup; request_host; build_opener; _parse_proxy; parse_keqv_List; parse_http_List; _safe_gethostbyname; ftperrors; noheaders; getproxIEs_environment; proxy_bypass_environment; _proxy_bypass_macosx_sysconf; Requesturllib.response: addbase; addclosehook; addinfo;addinfourl;urllib.robotparser: RobotfileParser
python2.7下
# -*- Coding:utf-8 -*-import urllibimport urllib2import re#处理页面标签类class Tool: #去除img标签,7位长空格 removeimg = re.compile('| {7}|') #删除超链接标签 removeAddr = re.compile('|') #把换行的标签换为replaceline = re.compile('<tr>|||
')
将表格制表<td>替换为replaceTD= re.compile('<td>')
把段落开头换为加空两格
replacePara = re.compile('<p.*?>')
将换行符或双换行符替换为replaceBR = re.compile('

|
')
将其余标签剔除removeExtraTag = re.compile('<.*?>')
def replace(self,x):
x = re.sub(self.removeimg,"",x)
x = re.sub(self.removeAddr,x)
x = re.sub(self.replaceline,"
",x)
x = re.sub(self.replaceTD,"    ",x)
x = re.sub(self.replacePara,"
",x)
x = re.sub(self.replaceBR,x)
x = re.sub(self.removeExtraTag,x)
strip()将前后多余内容删除return x.strip()
百度贴吧爬虫类class BDTB:
初始化，传入基地址，是否只看楼主的参数def init(self,baseUrl,seeLZ,floorTag):
base链接地址self.baseURL = baseUrl
是否只看楼主self.seeLZ = '?see_lz='+str(seeLZ)
HTML标签剔除工具类对象self.tool = Tool()
全局file变量，文件写入 *** 作对象self.file = None
楼层标号，初始为1self.floor = 1
默认的标题，如果没有成功获取到标题的话则会用这个标题self.defaultTitle = u"百度贴吧"
是否写入楼分隔符的标记self.floorTag = floorTag
传入页码，获取该页帖子的代码def getPage(self,pageNum):
try:
构建URLurl = self.baseURL+ self.seeLZ + '&pn=' + str(pageNum)
request = urllib2.Request(url)
response = urllib2.urlopen(request)
返回UTF-8格式编码内容return response.read().decode('utf-8')
无法连接，报错except urllib2.URLError,e:
if hasattr(e,"reason"):
print u"连接百度贴吧失败,错误原因",e.reason
return None
获取帖子标题def getTitle(self,page):
得到标题的正则表达式pattern = re.compile('<h1 l_reply_num.?.?<span.?>(.?)',page)
if result:
return result.group(1).strip()
else:
return None
获取每一层楼的内容,传入页面内容def getContent(self,page):
匹配所有楼层的内容pattern = re.compile('<div id="postcontent.?>(.?)',re.S)
items = re.findall(pattern,page)
contents = []
for item in items:
将文本进行去除标签处理，同时在前后加入换行符content = "
"+self.tool.replace(item)+"
"
contents.append(content.encode('utf-8'))
return contents
def setfileTitle(self,Title):
如果标题不是为None，即成功获取到标题if Title is not None:
self.file = open(Title + ".txt","w+")
else:
self.file = open(self.defaultTitle + ".txt","w+")
def writeData(self,contents):
向文件写入每一楼的信息for item in contents:
if self.floorTag == '1':
楼之间的分隔符floorline = "
" + str(self.floor) + u"-----------------------------------------------------------------------------------------
"
self.file.write(floorline)
self.file.write(item)
self.floor += 1
print(item)
def start(self):
indexPage = self.getPage(1)
pageNum = self.getPageNum(indexPage)
Title = self.getTitle(indexPage)
self.setfileTitle(Title)
if pageNum == None:
print "URL已失效，请重试"
return
try:
print "该帖子共有" + str(pageNum) + "页"
for i in range(1,int(pageNum)+1):
print "正在写入第" + str(i) + "页数据"
page = self.getPage(i)
contents = self.getContent(page)
self.writeData(contents)
出现写入异常except IOError,e:
print "写入异常，原因" + e.message
finally:
print "写入任务完成"
print u"请输入帖子代号"
baseURL = 'http://tIEba.baIDu.com/p/' + str(raw_input(u'http://tIEba.baIDu.com/p/'))
seeLZ = raw_input("是否只获取楼主发言，是输入1，否输入0
")
floorTag = raw_input("是否写入楼层信息，是输入1，否输入0
")
bdtb = BDTB(baseURL,floorTag)
bdtb.start()
python3.6下
# -*- Coding:utf-8 -*-import urllib.errorimport urllib.parseimport urllib.requestimport re#处理页面标签类class Tool: #去除img标签,pageNum): try: #构建URL url = self.baseURL+ self.seeLZ + '&pn=' + str(pageNum) request = urllib.request.Request(url) response = urllib.request.urlopen(request) #返回UTF-8格式编码内容 return response.read().decode('utf-8') #无法连接，报错 except urllib.error.URLError as e: if hasattr(e,"reason"): print(u"连接百度贴吧失败,e.reason) return None #获取帖子标题 def getTitle(self,contents): #向文件写入每一楼的信息 for item in contents: if self.floorTag == '1': #楼之间的分隔符 floorline = "" + str(self.floor) + u"-----------------------------------------------------------------------------------------" self.file.write(floorline) self.file.write(str(item,'utf-8')) self.floor += 1 print(str(item,'utf-8')) def start(self): indexPage = self.getPage(1) pageNum = self.getPageNum(indexPage) Title = self.getTitle(indexPage) self.setfileTitle(Title) if pageNum == None: print("URL已失效，请重试") return try: print("该帖子共有" + str(pageNum) + "页") for i in range(1,int(pageNum)+1): print("正在写入第" + str(i) + "页数据") page = self.getPage(i) contents = self.getContent(page) self.writeData(contents) #出现写入异常 except IOError as e: print("写入异常，原因" + e.message) finally: print("写入任务完成")print("请输入帖子代号")baseURL = 'http://tIEba.baIDu.com/p/' + str(input(u'http://tIEba.baIDu.com/p/'))seeLZ = input("是否只获取楼主发言，是输入1，否输入0")floorTag = input("是否写入楼层信息，是输入1，否输入0")bdtb = BDTB(baseURL,floorTag)bdtb.start()
          总结       以上是内存溢出为你收集整理的Python爬虫案例——百度贴吧数据采集！最适合零基础的案例之一全部内容，希望文章能够帮你解决Python爬虫案例——百度贴吧数据采集！最适合零基础的案例之一所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错，欢迎将内存溢出网站推荐给程序员好友。					
										


					
						欢迎分享，转载请注明来源：内存溢出
原文地址: https://outofmemory.cn/langs/1208551.html
Python爬虫案例——百度贴吧数据采集！最适合零基础的案例之一

发表评论

评论列表（0条）