我的HTML文件包含许多从lexisnexis(法律数据库)批量下载的单个文档.我的第一个任务是将HTML文件拆分为其组成文档.我认为这很容易,因为文档被第一文档< / DOC>的< DOC NUMBER = 1>主体包围了.等等.然而,这个< DOC> tag是一个xml标记,而不是一个HTML标记(文件中的所有其他标记都是HTML).因此,使用常规HTML解析器时,树中不提供此标记.如何在bs4中构建一个解析器来获取这个xml标签?
我附上了HTML文件的相关部分:
<! - 隐藏浏览器中的XML部分< DOC NUMBER = 1> < DOCFulL> – > BODY<! - 隐藏浏览器中的XML部分< / DOCFulL> < / DOC> – >
最好
马里昂
xml_soup = BeautifulSoup(xml_object,'xml')
这应该照顾你的问题.您可以使用xml_soup对象来解析剩余的HTML,但是我建议您专门为HTML实例化另一个汤对象:
soup = BeautifulSoup(HTML_object)总结
以上是内存溢出为你收集整理的python – 如何构建html5lib解析器来处理xml和html标签的混合全部内容,希望文章能够帮你解决python – 如何构建html5lib解析器来处理xml和html标签的混合所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)