下面是内存溢出 jb51.cc 通过网络收集整理的代码片段。
内存溢出小编现在分享给大家,也给大家做个参考。
#!/usr/bin/env python# -*- Coding: utf-8 -*-# @Date : 2015-06-01 10:30:06# @Author : HG ([email protected])# @Version : 1.0import urllib2import reimport osdef getHTML(url): #获取HTML源码 page = urllib2.urlopen(url) HTML = page.read() return HTMLdef urlPages(page): #翻页 url = 'http://www.oschina.net/code/List/7/python?p=' + str(page) heard={'User-Agent':'Mozilla/4.0 (compatible; MSIE 5.5; windows NT)'} request=urllib2.Request(url,headers=heard) return requestdef findList(HTML): #正则匹配列表 myItems = re.findall('<li>.*?<h3 >.*?<a href="(.*?)" target="_blank" title="(.*?)">.*?</a>.*?</h3>.*?<p >.*?<span class=\'stat\'>(.*?)回/(.*?)阅/(.*?)顶/(.*?)收藏</span>.*?</p>.*?</li>',HTML,re.S) return myItemsfor page in range(1,30): #抓取的页数 HTML = getHTML(urlPages(page)) items = findList(HTML) for item in items: readmax = int(item[3]) if readmax > 800: #阅读数 s = item[0] + ' ' + item[1] + '\n' file_object = open('open.txt','a') file_object.write(s) file_object.close() else: pass
以上是内存溢出(jb51.cc)为你收集整理的全部代码内容,希望文章能够帮你解决所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
总结以上是内存溢出为你收集整理的对分享列表阅读数进行提取全部内容,希望文章能够帮你解决对分享列表阅读数进行提取所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)