python – 如何构建html5lib解析器来处理xml和html标签的混合

python – 如何构建html5lib解析器来处理xml和html标签的混合,第1张

概述我是BeautifulSoup的新手,我正在学习如何使用它来解决我的解析任务. 我的html文件包含许多从lexisnexis(法律数据库)批量下载的单个文档.我的第一个任务是将html文件拆分为其组成文档.我认为这很容易,因为文档被第一文档< / DOC>的< DOC NUMBER = 1>主体包围了.等等.然而,这个< DOC> tag是一个xml标记,而不是一个html标记(文件中的所有其他 我是BeautifulSoup的新手,我正在学习如何使用它来解决我的解析任务.
我的HTML文件包含许多从lexisnexis(法律数据库)批量下载的单个文档.我的第一个任务是将HTML文件拆分为其组成文档.我认为这很容易,因为文档被第一文档< / DOC>的< DOC NUMBER = 1>主体包围了.等等.然而,这个< DOC> tag是一个xml标记,而不是一个HTML标记(文件中的所有其他标记都是HTML).因此,使用常规HTML解析器时,树中不提供此标记.如何在bs4中构建一个解析器来获取这个xml标签?
我附上了HTML文件的相关部分:

<! - 隐藏浏览器中的XML部分< DOC NUMBER = 1> < DOCFulL> – > BODY<! - 隐藏浏览器中的XML部分< / DOCFulL> < / DOC> – >

最好
马里昂

解决方法 实例化BeautifulSoup对象时,可以在bs4中指定xml:

xml_soup = BeautifulSoup(xml_object,'xml')

这应该照顾你的问题.您可以使用xml_soup对象来解析剩余的HTML,但是我建议您专门为HTML实例化另一个汤对象:

soup = BeautifulSoup(HTML_object)
总结

以上是内存溢出为你收集整理的python – 如何构建html5lib解析器来处理xml和html标签的混合全部内容,希望文章能够帮你解决python – 如何构建html5lib解析器来处理xml和html标签的混合所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/1196823.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-03
下一篇 2022-06-03

发表评论

登录后才能评论

评论列表(0条)

保存