网页链接:
http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html
效果:
# Coding=utf-8import requestsfrom bs4 import BeautifulSoupimport bs4def getHTML(url): try: r=requests.get(url,timeout=30) #获取请求 r.raise_for_status #请求状态 r.enCoding=r.apparent_enCoding #编码 return r.text except: return ""def getUnList(unifo,HTML): soup=BeautifulSoup(HTML,"HTML.parser") for tr in soup.find(‘tbody‘).find_all(‘tr‘): #找到tbody内的所有tr tds=tr.find_all(‘td‘) unifo.append([tds[0].string,tds[1].string,tds[3].string]) def printUnList(unifo,num): tplt="{0:^10}\t{1:{3}^15}\t{2:^10}" print(tplt.format("排名","大学名称","分数",chr(12288))) #用中文字符补全 for i in range(num): t=unifo[i] print(tplt.format(t[0],t[1],t[2],chr(12288)))def main(): url="http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.HTML" HTML=getHTML(url) unifo=[] getUnList(unifo,HTML) printUnList(unifo,20)main()总结
以上是内存溢出为你收集整理的爬取定向网页大学排名全部内容,希望文章能够帮你解决爬取定向网页大学排名所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)