正文抽取

360助手 • 2022-7-22 • 随笔 • 阅读 7

如果是做正文抽取的话，想要做到很精准的效果是难的（尤其是准确剔除掉正文周边内容），尤其是来自一些不正规的站点网页。我能找到的相关开源产品有：boilerpipe、goose、jReadability、roadrunner（这个是抽模版的），还有一个忘记名字了，他们的效果都算不上太好（对正规的新闻站点会好些）。我自己实现了一个正文抽取的程序（也是很复杂的说，就别要代码了，暂时没有开源计划），可供测试的页面是：http://www.tuicool.com/te 。实际上，现在的实现算法不是我最初的想法，如果能基于浏览器内核分析出页面布局以及内容信息，对页面主体内容（不单单限于正文内容）的抽取效果会更好，而应用场景就更多了，这方面的经典算法就是微软研究院的VIPS，基于它也衍生了一堆论文。

http://www.v2ex.com/t/29123

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zaji/2086695.html

抽取正文

打赏

微信扫一扫

支付宝扫一扫

360助手一级用户组

我的 VC++ 常见错误问题解决办法

上一篇 2022-07-22

Python自然语言处理学习笔记(41)：5.2 标注语料库

下一篇 2022-07-22

发表评论

登录后才能评论

评论列表（0条）