# Coding=utf8import reimport requestsfrom lxml import etreefrom multiprocessing.dummy import Pool as ThreadPoolimport sysreload(sys)sys.setdefaultencoding('utf-8')def getnewpage(url,total): Nowpage = int(re.search('(\d+)',url,re.S).group(1)) urls = [] for i in range(Nowpage,total + 1): link = re.sub('(\d+)','%s' % i,re.S) urls.append(link) return urlsdef spIDer(url): HTML = requests.get(url) selector = etree.HTML(HTML.text) author = selector.xpath('//*[@ID="content-left"]/div/div[1]/a[2]/@Title') content = selector.xpath('//*[@ID="content-left"]/div/div[2]/text()') Vote = selector.xpath('//*[@ID="content-left"]/div/div[3]/span/i/text()') length = len(author) for i in range(0,length): f.writelines('作者 : ' + author[i] + '\n') f.writelines('内容 :' + str(content[i]).replace('\n','') + '\n') f.writelines('支持 : ' + Vote[i] + '\n\n')if __name__ == '__main__': f = open('info.txt','a') url = 'http://www.qiushibaike.com/text/page/1/' urls = getnewpage(url,20) pool = ThreadPool(4) pool.map(spIDer,urls) f.close()@H_419_0@如果其中有不懂得部分,可以依次参考我的前三篇文章。
总结
以上是内存溢出为你收集整理的Python 制作糗事百科爬虫实例全部内容,希望文章能够帮你解决Python 制作糗事百科爬虫实例所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)