我想创建一个以HTML标记开头的管道.我需要将其删除为纯文本,因此它可以由不同的注释器处理,如POS,分块,实体检测等.但是我还想跟踪哪些区域对应于原始的HTML标签,如链接,段落,em等基本上我想要一个最终的注释器,它同时利用结构注释(来自HTML)和语义注释(来自其他组件).
因此,我可以想象从一个剥离HTML标记的组件开始并添加注释以跟踪我感兴趣的标记.这样的组件是否已经存在?这似乎是很多人想要的东西.
如果我必须从头开始创建它,它是什么类型的组件?它不仅仅是一个直接的注释器,因为它需要更改SOFA:它需要用纯文本替换标记.
或者我应该创建一个新的文档视图,所以我们维护文档的标记视图和纯文本视图?考虑到我再也不关心标记视图了,这看起来很奇怪.另外,我如何确保其他注释器(我自己不编码)在文档的纯文本视图而不是标记视图上 *** 作?
解决方法 根据标记的复杂性,有些人使用Apache Tika,有些人使用Boilerpipe.Here is a blog post想要在UIMA中使用Boilerpipe,但遇到了障碍因为他想要将偏移量保留回HTML.
Here is the UIMA annotator that calls tika.
总结以上是内存溢出为你收集整理的html-parsing – 使用UIMA处理HTML全部内容,希望文章能够帮你解决html-parsing – 使用UIMA处理HTML所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)