翻页抓取

翻页抓取,第1张

概述翻页抓取

下面是内存溢出 jb51.cc 通过网络收集整理的代码片段。

内存溢出小编现在分享给大家,也给大家做个参考。

#!/usr/bin/env python#Coding:utf-8import urllib2import reimport os def getHTML(url):   #获取HTML源码	headers={"User-Agent":"Mozilla/4.0 (compatible; MSIE 6.0; windows NT 5.1"}	req=urllib2.Request(url,headers=headers)	response=urllib2.urlopen(req)	HTML=response.read().decode('utf-8')	return HTML def urlPages(page):     #翻页    url = 'https://but/company/Lists/page/' + str(page)    #print url    return url def findList(HTML):     #正则匹配列表    myitems=re.findall('www.*?</td>',HTML,re.S)    return myitems for page in range(1,78+1):    #抓取的页数    #print page    HTML = getHTML(urlPages(page))    items = findList(HTML)    for item in items:        s = item        s=item.replace('</td>','')        #print s        file_object = open('but.txt','a')        file_object.writelines(s+'\n')        file_object.close()print (u'\n\n本王的网站下载完毕啦!')

以上是内存溢出(jb51.cc)为你收集整理的全部代码内容,希望文章能够帮你解决所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

总结

以上是内存溢出为你收集整理的翻页抓取全部内容,希望文章能够帮你解决翻页抓取所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/1198641.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-03
下一篇 2022-06-03

发表评论

登录后才能评论

评论列表(0条)

保存