将HTML列表转换为嵌套的Python列表

鱼网 • 2022-12-16 • 随笔 • 阅读 21

您可以采用递归方法：

from pprint import pprintfrom bs4 import BeautifulSouptext = """your html goes here"""def find_li(element):    return [{li.a['href']: find_li(li)} for ul in element('ul', recursive=False) for li in ul('li', recursive=False)]soup = BeautifulSoup(text, 'html.parser')data = find_li(soup)pprint(data)

印刷品：

[{u'Page1_Level1.html': [{u'Page1_Level2.html': [{u'Page1_Level3.html': []},     {u'Page2_Level3.html': []},     {u'Page3_Level3.html': []}]}]}, {u'Page2_Level1.html': [{u'Page2_Level2.html': []}]}]

仅供参考，这就是为什么我必须在

html.parser

这里使用的原因：

不要自动放置html，head和body标签，Beautifulsoup

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5668492.html

递归列表嵌套印刷品放置

打赏

微信扫一扫

支付宝扫一扫

鱼网一级用户组

0 0

最大化并行请求数（aiohttp）

上一篇 2022-12-16

在IPython模式下更改Emacs“将代码发送到解释器” Cc Cr命令

下一篇 2022-12-16

发表评论

登录后才能评论

将HTML列表转换为嵌套的Python列表

发表评论

评论列表（0条）