爬取定向网页大学排名

爬取定向网页大学排名,第1张

概述网页链接: http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html 效果:     # coding=utf-8import requestsfrom bs4 import BeautifulSoupimport bs4def getHTML(url): try: r=requests.get(url,

网页链接:

http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html

效果:

 

 

# Coding=utf-8import requestsfrom bs4 import BeautifulSoupimport bs4def getHTML(url):    try:        r=requests.get(url,timeout=30)   #获取请求        r.raise_for_status                 #请求状态        r.enCoding=r.apparent_enCoding   #编码        return r.text    except:        return ""def getUnList(unifo,HTML):    soup=BeautifulSoup(HTML,"HTML.parser")       for tr in soup.find(tbody).find_all(tr):  #找到tbody内的所有tr        tds=tr.find_all(td)        unifo.append([tds[0].string,tds[1].string,tds[3].string])        def printUnList(unifo,num):    tplt="{0:^10}\t{1:{3}^15}\t{2:^10}"    print(tplt.format("排名","大学名称","分数",chr(12288))) #用中文字符补全    for i in range(num):        t=unifo[i]        print(tplt.format(t[0],t[1],t[2],chr(12288)))def main():    url="http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.HTML"    HTML=getHTML(url)    unifo=[]    getUnList(unifo,HTML)    printUnList(unifo,20)main()
总结

以上是内存溢出为你收集整理的爬取定向网页大学排名全部内容,希望文章能够帮你解决爬取定向网页大学排名所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/1031578.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-23
下一篇 2022-05-23

发表评论

登录后才能评论

评论列表(0条)

保存