doc 文件主要用于保存term的倒排表信息,包括docId倒排链及term在docId的term freq信息等。倒排链是Lucene 进行全文检索的核心数据结构,请特别关注这个数据结构
请参考 Lucene tim文件格式详解 第三部分
文件头部分主要内容为标识此文件类型为 Lucene50PostingsWriterDoc , 源码部分在 Lucene50PostingsWriter 的123行,主要内容如下
开始本部分阅读时,请注意一个在第3部分兆虚得到的结果及含义, 现族茄燃在开始分析该部分内容
下面为term的doc信息。 主要逻辑是: 对于term的doc freq = 1的term来说,纳档doc文件不保存这个term的doc信息,而是在 tim 文件中保存,doc 文件只保存doc freq >1的term。在范例中,只有nice的doc freq >1, 故只保存nice的doc倒排链
关于其它term(term freq = 1)的编码方式,请参考 tim 文件相应的格式内容
footer区主要有以下内容
文件头是位于文件开头的一段承担一定配灶任务的数据,一般都在开头的部分。头文件作为一种包含功能函数、数据接口声明的载体文件,用于保存程序的声神游明(declaration),而定义文培瞎扮件用于保存程序的实现 (implementation)。
常见文件的文件头:
jpg: 255,216
gif: 71,73
bmp: 66,77
png: 137,80
doc: 208,207
docx: 80,75
xls: 208,207
xlsx: 80,75
js: 239,187
swf: 67,87
mp3: 73,68
wma: 48,38
mid: 77,84
rar: 82,97
zip: 80,75
xml: 60,63
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)