python– 使用BeautifulSoup解析HTML表

python– 使用BeautifulSoup解析HTML表,第1张

概述我过去曾使用过BeautifulSoup,但我反对新事物;令人难以置信的通用/最小的HTML表格标记...我的目标是获取每个值和它的标签(每个都在自己的td中)并打印出来......它们可以合并,我不在乎,我只是想制作确保每个标签都应用于正确的值.这是一个示例表:<tbody><tr> <td class='labels'&gt

我过去曾使用过BeautifulSoup,但我反对新事物;令人难以置信的通用/最小的HTML表格标记…我的目标是获取每个值和它的标签(每个都在自己的td中)并打印出来……它们可以合并,我不在乎,我只是想制作确保每个标签都应用于正确的值.这是一个示例表:

我知道如何抓住这些价值……

for td in soup.findAll('table')[0]:  # theres more than one table on the page    print td.renderContents().strip()

但这只给了我……

'Dawn:''07:01''Sunrise:''07:26''Moonrise:''14:29''

我想我可以抓住那些类值“标签”和“site_data”,但我如何确保标签和数据分组正确?最佳答案以下内容应该更简单,更容易理解:

import pprintfrom BeautifulSoup import BeautifulSoup  soup = BeautifulSoup(docTxt)groupedData = []for row in soup.findAll("tr"):    data = {}    allTDs = row.findAll("td")    for x in range(0,len(allTDs)-1,2):        data[allTDs[x].renderContents().strip()] = allTDs[x+1].renderContents().strip()    groupedData.append(data)pprint.pprint(groupedData)

输出:

[{'Dawn:': '07:01','Moonrise:': '14:29','Sunrise:': '07:26'},{'Dusk:': '18:27','Moonset:': '01:55','Sunset:&nbsp;': '18:02'},{'Day length:': '10:36','Daylight:': '11:26','Moon Phase:': 'Waxing Gibbous'}]
总结

以上是内存溢出为你收集整理的python – 使用BeautifulSoup解析HTML表全部内容,希望文章能够帮你解决python – 使用BeautifulSoup解析HTML表所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/langs/1205897.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-04
下一篇 2022-06-04

发表评论

登录后才能评论

评论列表(0条)