Lucene doc 文件格式详解

Lucene doc 文件格式详解,第1张

本文及后面关于Lucene的文章所采用的lucene 版本为8.1.0.

doc 文件主要用于保存term的倒排表信息,包括docId倒排链及term在docId的term freq信息等。倒排链是Lucene 进行全文检索的核心数据结构,请特别关注这个数据结构

请参考 Lucene tim文件格式详解 第三部分

文件头部分主要内容为标识此文件类型为 Lucene50PostingsWriterDoc , 源码部分在 Lucene50PostingsWriter 的123行,主要内容如下

开始本部分阅读时,请注意一个在第3部分兆虚得到的结果及含义, 现族茄燃在开始分析该部分内容

下面为term的doc信息。 主要逻辑是: 对于term的doc freq = 1的term来说,纳档doc文件不保存这个term的doc信息,而是在 tim 文件中保存,doc 文件只保存doc freq >1的term。在范例中,只有nice的doc freq >1, 故只保存nice的doc倒排链

关于其它term(term freq = 1)的编码方式,请参考 tim 文件相应的格式内容

footer区主要有以下内容

文件头是位于文件开头的一段承担一定配灶任务的数据,一般都在开头的部分。头文件作为一种包含功能函数、数据接口声明的载体文件,用于保存程序的声神游明(declaration),而定义文培瞎扮件用于保存程序的实现 (implementation)。

常见文件的文件头:

jpg: 255,216

gif: 71,73

bmp: 66,77

png: 137,80

doc: 208,207

docx: 80,75

xls: 208,207

xlsx: 80,75

js: 239,187

swf: 67,87

mp3: 73,68

wma: 48,38

mid: 77,84

rar: 82,97

zip: 80,75

xml: 60,63


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/tougao/12199453.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-21
下一篇 2023-05-21

发表评论

登录后才能评论

评论列表(0条)

保存