你好!
#安装lxmlpip install lxml
import requests
from lxml import html
def getHTMLText(url):
....
etree = html.etree
root = etree.HTML(getHTMLText(url))
#这里得到一个表格内tr的集合
trArr = root.xpath("//div[@class='news-text']/table/tbody/tr")
#循环显示tr里面的内容
for tr in trArr:
rank = tr.xpath("./td[1]/text()")[0]
name = tr.xpath("./td[2]/div/text()")[0]
prov = tr.xpath("./td[3]/text()")[0]
strLen = 22-len(name.encode('GBK'))+len(name)
print('排名:{:<3}, 学校名称:{:<{}}\t, 省份:{}'.format(rank,name,strLen,prov))
希望对你有帮助!
我一般爬取时用beautifulsoup与正则结合,这段的话应该用不到正则可以先用beautifulsoup提取出标签中的内容,然后用split相关的方法将空白分隔符分隔的内容分割成列表之后分配给相应的属性欢迎分享,转载请注明来源:内存溢出
评论列表(0条)