任何现成的搜索引擎(如Lucene)都应该能够在您拥有的数据量范围内提供搜索功能。您可能需要先做一些工作来设计索引并配置搜索的工作方式,但这只是配置。
您不会立即得到结果,但是您可能会 很快 得到结果。速度可能取决于您的设置方式以及运行的硬件类型。
您提到索引大于原始数据。这是可以预期的。索引通常包括某种形式的非规范化。索引的大小通常需要权衡取舍。预先对数据进行切片和切块的方法越多,查找引用的速度就越快。
最后,您提到分配索引,这几乎肯定 不是
您想要执行的 *** 作。分发许多PB数据的实用性令人生畏。您可能想要的是将索引放在大型胖计算机上,并在数据上提供搜索服务(将查询带入数据,而不将数据带入查询)。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)