对分享列表阅读数进行提取

对分享列表阅读数进行提取,第1张

概述对分享列表阅读数进行提取

下面是内存溢出 jb51.cc 通过网络收集整理的代码片段。

内存溢出小编现在分享给大家,也给大家做个参考。

#!/usr/bin/env python# -*- Coding: utf-8 -*-# @Date    : 2015-06-01 10:30:06# @Author  : HG ([email protected])# @Version : 1.0import urllib2import reimport osdef getHTML(url):	#获取HTML源码    page = urllib2.urlopen(url)    HTML = page.read()    return HTMLdef urlPages(page):		#翻页	url = 'http://www.oschina.net/code/List/7/python?p=' + str(page)	heard={'User-Agent':'Mozilla/4.0 (compatible; MSIE 5.5; windows NT)'}	request=urllib2.Request(url,headers=heard)	return requestdef findList(HTML):		#正则匹配列表    myItems = re.findall('<li>.*?<h3 >.*?<a href="(.*?)" target="_blank" title="(.*?)">.*?</a>.*?</h3>.*?<p >.*?<span class=\'stat\'>(.*?)回/(.*?)阅/(.*?)顶/(.*?)收藏</span>.*?</p>.*?</li>',HTML,re.S)    return myItemsfor page in range(1,30):	#抓取的页数	HTML = getHTML(urlPages(page))	items = findList(HTML)	for item in items:		readmax = int(item[3])		if readmax > 800:	#阅读数			s = item[0] + ' ' + item[1] + '\n'			file_object = open('open.txt','a')			file_object.write(s)			file_object.close()		else:			pass

以上是内存溢出(jb51.cc)为你收集整理的全部代码内容,希望文章能够帮你解决所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

总结

以上是内存溢出为你收集整理的对分享列表阅读数进行提取全部内容,希望文章能够帮你解决对分享列表阅读数进行提取所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/1198766.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-03
下一篇 2022-06-03

发表评论

登录后才能评论

评论列表(0条)

保存