下面是内存溢出 jb51.cc 通过网络收集整理的代码片段。
内存溢出小编现在分享给大家,也给大家做个参考。
#!/usr/bin/env python#Coding:utf-8import urllib2import reimport os def getHTML(url): #获取HTML源码 headers={"User-Agent":"Mozilla/4.0 (compatible; MSIE 6.0; windows NT 5.1"} req=urllib2.Request(url,headers=headers) response=urllib2.urlopen(req) HTML=response.read().decode('utf-8') return HTML def urlPages(page): #翻页 url = 'https://but/company/Lists/page/' + str(page) #print url return url def findList(HTML): #正则匹配列表 myitems=re.findall('www.*?</td>',HTML,re.S) return myitems for page in range(1,78+1): #抓取的页数 #print page HTML = getHTML(urlPages(page)) items = findList(HTML) for item in items: s = item s=item.replace('</td>','') #print s file_object = open('but.txt','a') file_object.writelines(s+'\n') file_object.close()print (u'\n\n本王的网站下载完毕啦!')
以上是内存溢出(jb51.cc)为你收集整理的全部代码内容,希望文章能够帮你解决所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
总结以上是内存溢出为你收集整理的翻页抓取全部内容,希望文章能够帮你解决翻页抓取所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)