PB级全文检索(分布式)解决方案

PB级全文检索(分布式)解决方案,第1张

PB级全文检索(分布式)解决方案

PB级别全文检索引擎(将)是大中型企事业单位不可或缺的信息系统。
PB级别全文检索引擎,有两个最基本的结构特点:一是分布式;二是分包式
分布式(Distributed Servers)是指索引信息、检索模块被分别(镜像)部署于数量适合的服务器;
分包式(Subcontracting Searchers)是指索引与文本信息(及2副本)被随机或按均衡的原则保存于不同的服务器;
搜索中台(Search Middle Officer)负责分配索引信息、整合检索结果。

HyperSearch™ 是北京联高软件开发有限公司集二十多年技术研发的PB级别全文检索引擎;
& 刻意避开 ES(ElasticSearch) 等基于 Lucene技术的 全文检索系统的诸多弊端与限制;
& 100%自主知识版权,适用于保密、安全与受制裁的应用场景;
& 基于C#及.Core开发,迁移性也很好,可运行于Windows及Linux系统;
& 系统结构简单、灵活,可在极短的时间内实现成百上千台服务器的快速部署;
& 提供 C# DLL,Web(Rustful) API 等诸多接入;
& 对管理员要求很低,普通的IT工程师即可轻松地运维;
& 对服务器要求很低,甚至可以利用过时、闲置计算机搭建;
& 图形化的搜索中台, *** 作维护很简单;

一般而言,索引信息越多,检索速度越快,支持的检索功能越多。
因而,优秀的全文检索核心,需要兼顾索引量与搜索性能。
 

1、功能特色

1.1 片段搜索(Piece Search,也称为部件搜索)

在无需数量级增加索引信息的情形下,即可实现英文单词、数字或字母与数字组合的片段搜索;
比如:lette*,搜索含有lette的记录(或文档);39012*搜索手机号码;89C3*搜索型号;
 

1.2 大小写敏感的搜索(Sensitive Search)

在无需数量级增加索引信息的情形下,支持大小写敏感的搜索(含片段搜索);
比如:Crosecrose 可得到不同的搜索结果;
 

1.3 或 搜索(OR Search)

支持两个及以上单词(或词语)的“或”搜索,只要出现其中之一即可;
比如:咖啡|cafe|coffee;
 

1.4 快速索引(Direct Index)

HyperSearch™支持快速创建索引,无需分词;
几乎实时地更新索引信息;
 

1.5 缩减索引(Index Skipping)

HyperSearch™支持用户指定的高频词,无需创建索引及参与检索;
该技术可以平均减少18%的索引数据量;
例如:对于类Github平台或企业内部的代码共享平台,
可以将编程语言的关键字(词)或保留字(词)设置为高频词,
即可大大减少索引数据量。
 

1.6 通用搜索语法(Normal Search Grammar)

通用搜索语法是指一般的搜索程序支持的语法。
关键词可以是一般词,也可以是 片段搜索语法,letter 或 lette* 都是可以的。
没有任何前缀或+(加好)前缀,是普通的关键词搜索;-(减号)作为前缀是过滤搜索;
双引号括起来的词(组),则是强制连续性搜索,比如:"wild horse",要求 wild 与 horse 相邻;
-"wild horse" 同理。
 

LuceneElasticSearchSolrHyperSearchBirth2001 老古董,过时技术;2004 外壳产品;2006 外壳产品;2021 新时代,新技术!LanguagejavajavajavaC#OSWindows & LinuxWindows & LinuxWindows & LinuxWindows & LinuxLicense受制于Apache of USA & Oracle受制于Apache of USA & Oracle受制于Apache of USA & Oracle完全自由Full Free片段检索依赖于巨大索引(慢);依赖于巨大索引(慢);依赖于巨大索引(慢);很小的索引文件;轻松实现;大小写敏感检索依赖于巨大索引(慢);依赖于巨大索引(慢);依赖于巨大索引(慢);很小的索引文件;轻松实现;或 检索不支持;性能较差;性能较差;原生实现;分布式不支持外套外套原生!!!容灾机制无无无原生!分离式索引无无无原生!外部接入耦合性复杂;一般;一般;极简!!!

2、应用场景

2.1 国家安全与情报部门

国家安全与情报部门参与全文检索的信息(文本)繁杂多样,数量巨大、格式不统一,
甚至出现多语种信息混杂的情形,对“时效性”要求也比较高,
需要尽快创建与更新索引信息利于实施检索;
国家安全与情报部门的信息来源渠道很多,因此全文检索系统应该结构简单;
国家安全与情报部门经常有应急事务,需要能够快速部署;
具体的应用场景,比如:
•根据ID(身份z,车牌号等)、姓名(部分或不准确)进行查询;
•信息快速汇集,实时部署,快速检索;
•以HyperSearch™为基础,可以快速建立关联关系的“图数据库”;
 

2.2 企业百科型知识分享平台

知识分享是现代企业的重要文化建设项目,可大大提高培训、团队建设效率,也能提高管理效能。
知识分享系统的核心功能就是多样化的全文检索。
一般的“+并搜索”“-过滤搜索索”和特定搜索都是基本的需求;“或搜索”也能提高检索效率。
对于中英文均有的学习平台,则使用的片段搜索是必需。
 

2.3 金融、保险行业应用

金融、保险行业的检索数据特点是:数据量超大,每个记录并不长;
应用HyperSearch™的检索策略服务,可支持1000亿(条)级别数据的全文检索;
•根据ID(日志类型、卡号等)和时间段进行查询。
•查询交易凭证,追溯交易,以及查询客户信用记录,帮助客户快速借款等。
•整合多方数据,形成关系网络,查询关联关系,可用于反洗钱、风控等场景。
 

2.4 电信、有线电视运营商应用

电信、有线电视运营商的检索数据特点与上述类似:数据量超大,每个记录并不长;
应用HyperSearch™的检索策略服务,可支持1000亿(条)级别数据的全文检索;
•主要根据ID(手机号码)、时间段进行查询;
•可用于用户查询话费清单、流量清单;
 

2.5 类Github的源程序共享平台

编程语言的平台文件数量巨大、代码信息重复性较高;
参与检索的文本以代码为主,但检索的时候却经常关系到注释信息;
对大小写敏感的搜索有明确的需求;对片段搜索有非常明确的需求。

一句话,文件或信息超多的部门、企业都需要 HyperSearch ™ !
 

3、部署方案



俗话说“要想富,先修路”,搭建任何网络环境,都不要在路由器、网卡及网线上面省钱。尽量用好的!
服务器上多插一些网卡!至少2块!进、出各一!
HyperSearch ™ 对服务器的要求并不高,内存越大越好(与资金搞好平衡!);
Windows,Linux均可;如果是 Windows Server ,当然更好;Linux 也是服务器版本最好;
服务器配置推荐:
(1)低配:内存8GB;1T SSD硬盘保存核心索引信息;8TB HDD 硬盘,保存扩展索引与文件信息;
(2)中配:内存32GB;1T SSD(PCIe 4.0/5.0)硬盘保存核心索引信息;16TB HDD硬盘,保存扩展索引与文件信息;
(3)高配:内存128GB;2T SSD(PCIe 4.0/5.0)硬盘保存核心索引信息;8TB SDD硬盘保存扩展索引;16x4 TB HDD保存扩展索引与文件信息;
(4)搜索中台服务器,看每日搜索量,酌情配备即可(主要是内存要大一些);

 

4、联系我们

4.1 PB级别文本文件全文检索系统

HyperFile™ 与 HyperSearch™ 协作,实施文件(文本)类型信息的PB级别全文检索系统;
 

4.2 PB级别数据库信息全文检索系统

HyperSQL™ 与 HyperSearch™ 协作,实施数据(库)类型信息的PB级别全文检索系统;
 

4.3 PB级别OFFICE文档(档案)全文检索系统

HyperDoc™ 与 HyperSearch™ 协作,实施文件(Office,PDF)类型信息的PB级别全文检索系统;
联高软件稳定、高效与精细的文本提取技术,从Office及PDF等文件中提取文本快速创建索引。

联高软件值得您来进行有价值的沟通。

 

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zaji/5700319.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存