分享
 
 
 

Lucene 索引文件格式的规格定义

王朝other·作者佚名  2008-05-31
窄屏简体版  字體: |||超大  

本文定义了LUCene(版本1.3)用到的索引文件的格式。

Jakarta Lucene是用Java写成的,同时有很多团体正在默默的用其他的程序语言来改写它。假如这些新的版本想和Jakarta Lucene兼容,就需要一个与具体语言无关的Lucene索引文件格式。本文正是试图提供一个完整的与语言无关的Jakarta Lucene 1.3索引文件格式的规格定义。

随着Lucene不断发展,本文也应该更新。不同语言写成的Lucene实现版本应当尽力遵守文件格式,也必须产生本文的新版本。

本文同时提供兼容性批注,描述文件格式上与前一版本不同的地方。

定义

Lucene中最基础的概念是索引(index),文档(document.,域(field)和项(term)。

索引包含了一个文档的序列。

· 文档是一些域的序列。

· 域是一些项的序列。

· 项就是一个字串。

存在于不同域中的同一个字串被认为是不同的项。因此项实际是用一对字串表示的,第一个字串是域名,第二个是域中的字串。

倒排索引

为了使得基于项的搜索更有效率,索引中项是静态存储的。Lucene的索引属于索引方式中的倒排索引,因为对于一个项这种索引可以列出包含它的文档。这刚好是文档与项自然联系的倒置。

域的类型

Lucene中,域的文本可能以逐字的非倒排的方式存储在索引中。而倒排过的域称为被索引过了。域也可能同时被存储和被索引。

域的文本可能被分解许多项目而被索引,或者就被用作一个项目而被索引。大多数的域是被分解过的,但是有些时候某些标识符域被当做一个项目索引是很有用的。

段(Segment)

Lucene索引可能由多个子索引组成,这些子索引成为段。每一段都是完整独立的索引,能被搜索。索引是这样作成的:

1.为新加入的文档创建新段。

2.合并已经存在的段。

搜索时需要涉及到多个段和/或者多个索引,每一个索引又可能由一些段组成。

文档号(document.nbspNumber)

内部的来说,Lucene用一个整形(interger)的文档号来指示文档。第一个被加入到索引中的文档就是0号,顺序加入的文档将得到一个由前一个号码递增而来的号码。

注重文档号是可能改变的,所以在Lucene外部存储这些号码时必须小心。非凡的,号码的改变的情况如下:

· 只有段内的号码是相同的,不同段之间不同,因而在一个比段广泛的上下文环境中使用这些号码时,就必须改变它们。标准的技术是根据每一段号码多少为每一段分配一个段号。将段内文档号转换到段外时,加上段号。将某段外的文档号转换到段内时,根据每段中可能的转换后号码范围来判定文档属于那一段,并减调这一段的段号。例如有两个含5个文档的段合并,那么第一段的段号就是0,第二段段号5。第二段中的第三个文档,在段外的号码就是8。

· 文档删除后,连续的号码就出现了间断。这可以通过合并索引来解决,段合并时删除的文档相应也删掉了,新合并而成的段并没有号码间断。

绪论

索引段维护着以下的信息:

· 域集合。包含了索引中用到的所有的域。

· 域值存储表。每一个文档都含有一个“属性-值”对的列表,属性即为域名。这个列表用来存储文档的一些附加信息,如标题,url或者访问数据库的一个ID。在搜索时存储域的集合可以被返回。这个表以文档号标识。

· 项字典。这个字典含有所有文档的所有域中使用过的的项,同时含有使用过它的文档的文档号,以及指向使用频数信息和位置信息的指针。

· 项频数信息。对于项字典中的每个项,这些信息包含含有这个项的文档的总数,以及每个文档中使用的次数。

· 项位置信息。对于项字典中的每个项,都存有在每个文档中出现的各个位置。

· Normalization factors. For each field in each document. a value is stored that is multiplied into the score for hits on that field. 标准化因子。对于文档中的每一个域,存有一个值,用来以后乘以这个这个域的命中数(hits)。

· 被删除的文档信息。这是一个可选文件,用来表明那些文档已经删除了。

接下来的各部分部分具体描述这些信息。

文件的命名(File Naming)

同属于一个段的文件拥有相同的文件名,不同的扩展名。扩展名由以下讨论的各种文件格式确定。

一般来说,一个索引存放一个目录,其所有段都存放在这个目录里,尽管我们不要求您这样做。

基本数据类型(Primitive Types)

Byte

最基本的数据类型就是字节(byte,8位)。文件就是按字节顺序访问的。其它的一些数据类型也定义为字节的序列,文件的格式具有字节意义上的独立性。

UInt32

32位无符号整数,由四个字节组成,高位优先。

UInt32 -- 4

Uint64

64位无符号整数,由八字节组成,高位优先。

UInt64 -- 8

VInt

可变长的正整数类型,每字节的最高位表明还剩多少字节。每字节的低七位表明整数的值。因此单字节的值从0到127,两字节值从128到16,383,等等。

VInt 编码示例

value

First byte

Second byte

Third byte

0

00000000

1

00000001

2

00000010

...

127

01111111

128

10000000

00000001

129

10000001

00000001

130

10000010

00000001

...

16,383

11111111

01111111

16,384

10000000

10000000

00000001

16,385

10000001

10000000

00000001

...

这种编码提供了一种在高效率解码时压缩数据的方法。

Chars

Lucene输出UNICODE字符序列,使用标准UTF-8编码。

String

Lucene输出由VINT和字符串组成的字串,VINT表示字串长,字符串紧接其后。

String -- VInt, Chars

索引包含的文件(Per-Index Files)

这部分介绍每个索引包含的文件。

Segments文件

索引中活动的段存储在Segments文件中。每个索引只能含有一个这样的文件,名为"segments".这个文件依次列出每个段的名字和每个段的大小。

Segments -- SegCount, SegCount

SegCount, SegSize -- UInt32

SegName -- String

SegName表示该segment的名字,同时作为索引其他文件的前缀。

SegSize是段索引中含有的文档数。

Lock文件

有一些文件用来表示另一个进程在使用索引。

· 假如存在"commit.lock"文件,表示有进程在写"segments"文件和删除无用的段索引文件,或者表示有进程在读"segments"文件和打开某些段的文件。在一个进程在读取"segments"文件段信息后,还没来得及打开所有该段的文件前,这个Lock文件可以防止另一个进程删除这些文件。

· 假如存在"index.lock"文件,表示有进程在向索引中加入文档,或者是从索引中删除文档。这个文件防止很多文件同时修改一个索引。

Deleteable文件

名为"deletetable"的文件包含了索引不再使用的文件的名字,这些文件可能并没有被实际的删除。这种情况只存在与Win32平台下,因为Win32下文件仍打开时并不能删除。

Deleteable -- DelableCount, DelableCount

DelableCount -- UInt32

DelableName -- String

段包含的文件(Per-Segment Files)

剩下的文件是每段中包含的文件,因此由后缀来区分。

域(Field)

域集合信息(Field Info)

所有域名都存储在这个文件的域集合信息中,这个文件以后缀.fnm结尾。

FieldInfos (.fnm) -- FieldsCount, FieldsCount

FieldsCount -- VInt

FieldName -- String

FieldBits -- Byte

目前情况下,FieldBits只有使用低位,对于已索引的域值为1,对未索引的域值为0。

文件中的域根据它们的次序编号。因此域0是文件中的第一个域,域1是接下来的,等等。这个和文档号的编号方式相同。

域值存储表(Stored Fields)

域值存储表使用两个文件表示:

1.域索引(.fdx文件)。

如下,对于每个文档这个文件包含指向域值的指针:

FieldIndex (.fdx) -- SegSize

FieldvaluesPosition -- Uint64

FieldvaluesPosition指示的是某一文档的某域的域值在域值文件中的位置。因为域值文件含有定

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
推荐阅读
 
 
 
>>返回首頁<<
 
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有