Lucene 索引文件格式的规格定义

本文定义了LUCene（版本1.3）用到的索引文件的格式。

Jakarta Lucene是用Java写成的，同时有很多团体正在默默的用其他的程序语言来改写它。假如这些新的版本想和Jakarta Lucene兼容，就需要一个与具体语言无关的Lucene索引文件格式。本文正是试图提供一个完整的与语言无关的Jakarta Lucene 1.3索引文件格式的规格定义。

随着Lucene不断发展，本文也应该更新。不同语言写成的Lucene实现版本应当尽力遵守文件格式，也必须产生本文的新版本。

本文同时提供兼容性批注，描述文件格式上与前一版本不同的地方。

定义

Lucene中最基础的概念是索引（index），文档（document．，域（field）和项（term）。

索引包含了一个文档的序列。

· 文档是一些域的序列。

· 域是一些项的序列。

· 项就是一个字串。

存在于不同域中的同一个字串被认为是不同的项。因此项实际是用一对字串表示的，第一个字串是域名，第二个是域中的字串。

倒排索引

为了使得基于项的搜索更有效率，索引中项是静态存储的。Lucene的索引属于索引方式中的倒排索引，因为对于一个项这种索引可以列出包含它的文档。这刚好是文档与项自然联系的倒置。

域的类型

Lucene中，域的文本可能以逐字的非倒排的方式存储在索引中。而倒排过的域称为被索引过了。域也可能同时被存储和被索引。

域的文本可能被分解许多项目而被索引，或者就被用作一个项目而被索引。大多数的域是被分解过的，但是有些时候某些标识符域被当做一个项目索引是很有用的。

段（Segment）

Lucene索引可能由多个子索引组成，这些子索引成为段。每一段都是完整独立的索引，能被搜索。索引是这样作成的：

1.为新加入的文档创建新段。

2.合并已经存在的段。

搜索时需要涉及到多个段和/或者多个索引，每一个索引又可能由一些段组成。

文档号（document．nbspNumber）

内部的来说，Lucene用一个整形（interger）的文档号来指示文档。第一个被加入到索引中的文档就是0号，顺序加入的文档将得到一个由前一个号码递增而来的号码。

注重文档号是可能改变的，所以在Lucene外部存储这些号码时必须小心。非凡的，号码的改变的情况如下：

· 只有段内的号码是相同的，不同段之间不同，因而在一个比段广泛的上下文环境中使用这些号码时，就必须改变它们。标准的技术是根据每一段号码多少为每一段分配一个段号。将段内文档号转换到段外时，加上段号。将某段外的文档号转换到段内时，根据每段中可能的转换后号码范围来判定文档属于那一段，并减调这一段的段号。例如有两个含5个文档的段合并，那么第一段的段号就是0，第二段段号5。第二段中的第三个文档，在段外的号码就是8。

· 文档删除后，连续的号码就出现了间断。这可以通过合并索引来解决，段合并时删除的文档相应也删掉了，新合并而成的段并没有号码间断。

绪论

索引段维护着以下的信息：

· 域集合。包含了索引中用到的所有的域。

· 域值存储表。每一个文档都含有一个“属性－值”对的列表，属性即为域名。这个列表用来存储文档的一些附加信息，如标题，url或者访问数据库的一个ID。在搜索时存储域的集合可以被返回。这个表以文档号标识。

· 项字典。这个字典含有所有文档的所有域中使用过的的项，同时含有使用过它的文档的文档号，以及指向使用频数信息和位置信息的指针。

· 项频数信息。对于项字典中的每个项，这些信息包含含有这个项的文档的总数，以及每个文档中使用的次数。

· 项位置信息。对于项字典中的每个项，都存有在每个文档中出现的各个位置。

· Normalization factors. For each field in each document． a value is stored that is multiplied into the score for hits on that field. 标准化因子。对于文档中的每一个域，存有一个值，用来以后乘以这个这个域的命中数（hits）。

· 被删除的文档信息。这是一个可选文件，用来表明那些文档已经删除了。

接下来的各部分部分具体描述这些信息。

文件的命名（File Naming）

同属于一个段的文件拥有相同的文件名，不同的扩展名。扩展名由以下讨论的各种文件格式确定。

一般来说，一个索引存放一个目录，其所有段都存放在这个目录里，尽管我们不要求您这样做。

基本数据类型（Primitive Types）

Byte

最基本的数据类型就是字节（byte，8位）。文件就是按字节顺序访问的。其它的一些数据类型也定义为字节的序列，文件的格式具有字节意义上的独立性。

UInt32

32位无符号整数，由四个字节组成，高位优先。

UInt32 -- 4

Uint64

64位无符号整数，由八字节组成，高位优先。

UInt64 -- 8

VInt

可变长的正整数类型，每字节的最高位表明还剩多少字节。每字节的低七位表明整数的值。因此单字节的值从0到127，两字节值从128到16,383，等等。

VInt 编码示例

value

First byte

Second byte

Third byte

00000000

00000001

00000010

...

127

01111111

128

10000000

00000001

129

10000001

00000001

130

10000010

00000001

...

16,383

11111111

01111111

16,384

10000000

00000001

16,385

10000001

10000000

00000001

...

这种编码提供了一种在高效率解码时压缩数据的方法。

Chars

Lucene输出UNICODE字符序列，使用标准UTF-8编码。

String

Lucene输出由VINT和字符串组成的字串，VINT表示字串长，字符串紧接其后。

String -- VInt, Chars

索引包含的文件（Per-Index Files）

这部分介绍每个索引包含的文件。

Segments文件

索引中活动的段存储在Segments文件中。每个索引只能含有一个这样的文件，名为"segments".这个文件依次列出每个段的名字和每个段的大小。

Segments -- SegCount, SegCount

SegCount, SegSize -- UInt32

SegName -- String

SegName表示该segment的名字，同时作为索引其他文件的前缀。

SegSize是段索引中含有的文档数。

Lock文件

有一些文件用来表示另一个进程在使用索引。

· 假如存在"commit.lock"文件，表示有进程在写"segments"文件和删除无用的段索引文件，或者表示有进程在读"segments"文件和打开某些段的文件。在一个进程在读取"segments"文件段信息后，还没来得及打开所有该段的文件前，这个Lock文件可以防止另一个进程删除这些文件。

· 假如存在"index.lock"文件，表示有进程在向索引中加入文档，或者是从索引中删除文档。这个文件防止很多文件同时修改一个索引。

Deleteable文件

名为"deletetable"的文件包含了索引不再使用的文件的名字，这些文件可能并没有被实际的删除。这种情况只存在与Win32平台下，因为Win32下文件仍打开时并不能删除。

Deleteable -- DelableCount, DelableCount

DelableCount -- UInt32

DelableName -- String

段包含的文件（Per-Segment Files）

剩下的文件是每段中包含的文件，因此由后缀来区分。

域（Field）

域集合信息（Field Info）

所有域名都存储在这个文件的域集合信息中，这个文件以后缀.fnm结尾。

FieldInfos (.fnm) -- FieldsCount, FieldsCount

FieldsCount -- VInt

FieldName -- String

FieldBits -- Byte

目前情况下，FieldBits只有使用低位，对于已索引的域值为1，对未索引的域值为0。

文件中的域根据它们的次序编号。因此域0是文件中的第一个域，域1是接下来的，等等。这个和文档号的编号方式相同。

域值存储表（Stored Fields）

域值存储表使用两个文件表示：

1.域索引（.fdx文件）。

如下，对于每个文档这个文件包含指向域值的指针：

FieldIndex (.fdx) -- SegSize

FieldvaluesPosition -- Uint64

FieldvaluesPosition指示的是某一文档的某域的域值在域值文件中的位置。因为域值文件含有定