html-parsing – 使用UIMA处理HTML

html-parsing – 使用UIMA处理HTML,第1张

概述我试图了解UIMA架构. 我想创建一个以HTML标记开头的管道.我需要将其删除为纯文本,因此它可以由不同的注释器处理,如POS,分块,实体检测等.但是我还想跟踪哪些区域对应于原始的html标签,如链接,段落,em等基本上我想要一个最终的注释器,它同时利用结构注释(来自html)和语义注释(来自其他组件). 因此,我可以想象从一个剥离html标记的组件开始并添加注释以跟踪我感兴趣的标记.这样的组件是 我试图了解UIMA架构.

我想创建一个以HTML标记开头的管道.我需要将其删除为纯文本,因此它可以由不同的注释器处理,如POS,分块,实体检测等.但是我还想跟踪哪些区域对应于原始的HTML标签,如链接,段落,em等基本上我想要一个最终的注释器,它同时利用结构注释(来自HTML)和语义注释(来自其他组件).

因此,我可以想象从一个剥离HTML标记的组件开始并添加注释以跟踪我感兴趣的标记.这样的组件是否已经存在?这似乎是很多人想要的东西.

如果我必须从头开始创建它,它是什么类型的组件?它不仅仅是一个直接的注释器,因为它需要更改SOFA:它需要用纯文本替换标记.

或者我应该创建一个新的文档视图,所以我们维护文档的标记视图和纯文本视图?考虑到我再也不关心标记视图了,这看起来很奇怪.另外,我如何确保其他注释器(我自己不编码)在文档的纯文本视图而不是标记视图上 *** 作?

解决方法 根据标记的复杂性,有些人使用Apache Tika,有些人使用Boilerpipe.

Here is a blog post想要在UIMA中使用Boilerpipe,但遇到了障碍因为他想要将偏移量保留回HTML.

Here is the UIMA annotator that calls tika.

总结

以上是内存溢出为你收集整理的html-parsing – 使用UIMA处理HTML全部内容,希望文章能够帮你解决html-parsing – 使用UIMA处理HTML所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/1054357.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-25
下一篇 2022-05-25

发表评论

登录后才能评论

评论列表(0条)

保存