使用Solr为带有页码的PDF编制索引

使用Solr为带有页码的PDF编制索引,第1张

概述我正在使用ExtractingRequestHandler为Solr索引PDF.我想显示页码以及文档中的匹配,例如“第2页,第3页和第5页的bar.pdf中找到了术语foo.” 是否可以在查询结果中包含页码? 这需要一些开发工作,但您可以通过将每个文档的每个页面索引为单独的Solr文档来实现此目的,然后使用 field collapsing对每个文档的不同页面命中进行分组. 请注意,您需要每晚一次 我正在使用ExtractingRequestHandler为Solr索引pdf.我想显示页码以及文档中的匹配,例如“第2页,第3页和第5页的bar.pdf中找到了术语foo.”

是否可以在查询结果中包含页码?

解决方法 这需要一些开发工作,但您可以通过将每个文档的每个页面索引为单独的Solr文档来实现此目的,然后使用 field collapsing对每个文档的不同页面命中进行分组.

请注意,您需要每晚一次,在任何当前发布的Solr版本中都没有实现字段折叠.

另请注意:字段折叠在版本Solr 3.3中实现.预计下一个大版本会有更多更新(Solr 4.0)

总结

以上是内存溢出为你收集整理的使用Solr为带有页码的PDF编制索引全部内容,希望文章能够帮你解决使用Solr为带有页码的PDF编制索引所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/1076984.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-26
下一篇 2022-05-26

发表评论

登录后才能评论

评论列表(0条)

保存