什么是并行搜索技术
并行搜索引擎(又称集成搜索引擎、元搜索引擎、大型搜索引擎)是一种可同时检索多个搜索引擎,并以统一的检索界面返回检索结果的检索工具,其结构模型如图1 所示。Metacrawler 是世界上第1 个并行搜索引擎,它使用几大顶级搜索引擎(Google, hoo, About 等)进行并行搜索,返回最相关的检索结果,从而使网页检索更容易。并行搜索引擎通过其转换功能,将检索用词转换为搜索引擎可接受的形式,并提交给搜索引擎,用于查找匹配记录、进行记录去重及检索结果整合。由于并行搜索引擎能协同检索多个搜索引擎,忽略其数据来源的结构差异,剔除相互之间的重复记录,并检验检索结果信息的有效性,因此可获得高质量的检索效果。
图1 并行搜索引擎的基本结构模型
与独立搜索引擎相比,并行搜索引擎有4 个优势:
(1)检索信息扩大对Internet 的覆盖范围。研究表明,Internet 数据增长速度比独立引擎索引网络数据的速度快很多,导致主流的独立搜索引擎对Internet 的覆盖范围逐步下降,而并行搜索引擎可以缓解该矛盾。
(2)提高信息检索的扩展性。使用并行搜索引擎检索网络信息比使用集中化的独立搜索引擎更容易得到扩展。
(3)并行检索可以同时使用多个搜索引擎。用户只需要提交一次查询就可以使用多个独立引擎,不必熟悉每个独立引擎的检索界面,且并行搜索引擎可以对检索结果进行排序和冗余处理。
(4)提高检索效率。有时并行搜索的检索速度低于单个独立搜索引擎,但并行检索可以获得较大的结果集,为用户提供更有效的检索信息。一些学者认为未来的网络检索服务将由许多各自覆盖的小部分互连网的专业引擎协同提供。通用大型检索系统的任务将由并行搜索引擎代替。相对一些成熟的独立搜索引擎而言,并行搜索引擎仍然
存在缺陷。由于并行搜索引擎基本没有自己管理的检索信息,因此无法获得检索信息的描述信息,且其检索质量还部分依赖于为其提供服务的独立搜索引擎,具体体现在:
(1)并行搜索引擎可能不支持某些高级检索功能,比如高级布尔检索等。
(2)并行搜索引擎不会返回所有检索结果,例如,它只是将每个搜索引擎最相关的检索结果返回给用户,若某个独立搜索引擎在规定时间内没有响应,则忽略它的检索结果。
(3)因为独立搜索引擎之间一般都有重复纪录出现,所以并行搜索引擎必须面对信息冗余问题。文献[4]提出基于Agent 的方法,包含自然语言分析器、查询定制、网页收回、网页过滤、网页排序和用户选项Agent来解决上述问题。本文基于网格的并行搜索引擎,参考文献的思想来解决并行搜索引擎的一些问题。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)