分享
 
 
 

Lucene 1.9 改进特性列表

王朝java/jsp·作者佚名  2006-03-10
窄屏简体版  字體: |||超大  

Lucene 1.9 改进特性列表

1.9 RC1

注:lucene2.0发布版本并不是100%的和1.4.3版兼容。也就是说在你用2.0版本的Lucene开发包替换原来的1.4.3版本时,应该让你的应用程序首先和1.9的兼容。

使用前提:

1. 编译和使用Lucene需要 Java1.4 或以上版本。

Lucene 1.9 在运行时的变化:

1. 模糊搜索 FuzzyQuery 不再抛出 TooManyClauses 异常。当 FuzzyQuery 扩展多于 BooleanQuery.maxClauseCount 时 ,只有最相关的term会被重新写入query,因此避免了异常的抛出。 (Christoph)

2. 把系统属性 "org.apache.lucene.lockdir" 改为 "org.apache.lucene.lockDir"。(Bernhard)

3. RangeQueries 和 FuzzyQueries 默认被转换成小写。 (as it has been the case for PrefixQueries and WildcardQueries before).使用 setLowercaseExpandedTerms(false) 来禁止大小写自动转换的行为;同样也影响 PrefixQueries 和 WildcardQueries。(Daniel Naber)

4. 在使用 MultiSearcher 的时候文档频率也可以正确计算,全局性的计算各个 subsearchers 和 indices 中。以前计算的时候只是 locally 的,每个 index 的计算是分开的,这样引发的一个问题是:在多个indices中rank 是不相等的。

(Chuck Williams, Wolf Siberski via Otis, bug #31841)

5. 在打开 IndexWriter 使用 create=true 参数,Lucene 现在只是删除index目录中属于Lucene自己的文件。( 判断文件名后缀的方式 )。原来是删除整个目录中的所有文件。(Daniel Naber and Bernhard Messer, bug #34695)

6. IndexReader 的版本 ,可以通过 getCurrentVersion() 和 getVersion() 返回。以前如果是新的indexes 那么返回的是0 。现在则用系统的毫秒数来初始化。

(Bernhard Messer via Daniel Naber)

7. 一些默认的初始化值不再允许通过 system properties 来设置。相反在 IndexWriter 中新增了相关的 set/get 方法来设置相关属性。主要包括以下属性:

在 IndexWriter 的 getter/setter 方法中:

org.apache.lucene.writeLockTimeout, org.apache.lucene.commitLockTimeout,

org.apache.lucene.minMergeDocs, org.apache.lucene.maxMergeDocs,

org.apache.lucene.maxFieldLength, org.apache.lucene.termIndexInterval,

org.apache.lucene.mergeFactor,

还有 BooleanQuery 的 getter/setter 方法:

org.apache.lucene.maxClauseCount

还有 FSDirectory 的 getter/setter 方法:

disableLuceneLocks

(Daniel Naber)

8. 修改了 FieldCacheImpl 方法使用用户提供的 IntParser 和 FloatParser,来替代使用 Integer 和 Float 的相关方法。

(Yonik Seeley via Otis Gospodnetic)

9. 高级搜索返回的 TopDocs 和 TopFieldDocs 不再规范scores。

(Luc Vanlerberghe via Yonik Seeley, LUCENE-469)

1.9 的新特性:

1. 增加了对压缩字段存储的支持。(patch #31149)

(Bernhard Messer via Christoph)

2. 增加了对压缩字段存储的支持。(patch #29370)

(Bernhard Messer via Christoph)

3. 在 term vectors 中增加了 位置和偏移信息。(Grant Ingersoll & Christoph)

4. 增加了一个新的 DateTools 。允许用户格式化日期到一种更可读的格式,以便于更好的适应索引。DateTools 不像 DateFields 类,它允许日期指定到1970年以前,但必须使用指定的日期格式。这样,在RangeQuerys中使用就更加有效率了。

(Daniel Naber)

5. QueryParser 现在可以正确的和Analyzers 一起工作了,即可以在一个位置返回多个 Token 。 比如:查询: “+fast + car”如果 Analyzer 在同一位置返回 car 和 automobile ,那么上面的查询将被解析成:”+fast +(car automobile)”。

(Pierrick Brihaye, Daniel Naber)

6. 允许unbuffered的目录实现。(e.g.,using mmap)。

InputStream 被新类 IndexInput 替换, BufferedIndexInput 和 OutputStream 则被 IndexOutput 和 BufferedIndexOutput。 InputStream 和 OutputStream 已经被废弃了。FSDirectory 现在是一个子类了。(cutting)

7. 增加了原生 Directory 和 TermDocs 的实现,可以工作在 GCJ 下。GCJ的版本需要 3.4.0 以上。可以使用 ant gcj 来运行例子程序。(cutting)

8. 增加了 MmapDirectory 类,它使用 nio to mmap 输入文件。现在MmapDirectory 比FSDirectory 要慢些。但他对每个查询term 使用更少的内存。(cutting & Paul Elschot)

9. 增加 javadocs-internal 到 build.xml – bug #30360

10. 增加了 RangeFileter ,比 DateFilter 更加通用,实用。

(Chris M Hostetter via Erik)

11. 增加了 NumberTools ,一个用来索引数字字段的工具类。

(adapted from code contributed by Matt Quail; committed by Erik)

12. 增加了 public static IndexReader.main(String[] args) 方法。

IndexReader 现在可以直接在命令行方式下使用,用来 列出或者从现存的索引中抽取单独的文件出来。

(adapted from code contributed by Garrett Rooney; committed by Bernhard)

13. 增加 IndexWriter.setTermIndexInterval() 方法。

(Doug Cutting)

14. 增加 LucenePackage ,这些静态的 get() 方法返回 java.util.Package。调用者可以用它来获得 Lucene jar 中的版本信息。

(Doug Cutting via Otis)

15. 增加 Hits.iterator() 方法和相应的 HitIterator 和 Hit 对象。

他提供了对 Hits对象标准的 java.util.Iterator 叠代操作。

每个iterator's next() 方法返回一个 Hit 对象。

(Jeremy Rayner via Erik)

16. 增加 ParallelReader,这个一种IndexReader 他合并多个单独的索引到一个单独的虚拟索引上。(Doug Cutting)

17. 增加对 FieldCache 的 IntParser , FloatParser 接口, 这样任何格式的字段可以被以int 和float的形式缓存。

(Doug Cutting)

18. 新增类: org.apache.lucene.index.IndexModifier ,它合并了 IndexWriter 和 IndexReader,好处是我们可以增加和删除文档的时候不同担心 synchronisation/locking 的问题了。

(Daniel Naber)

19. Lucene 现在可以被用在一个没有签名的applet中了,Lucene’s 读取系统属性不会抛出 SecurityException 异常。

(Jon Schuster via Daniel Naber, bug #34359)

20. 增加了新类 MatchAllDocsQuery 用来匹配所有文档。

(John Wang via Daniel Naber, bug #34946)

21. 当索引太多的字段时,为了消减索引大小和内存消耗,提供了忽略规范化字段的功能。

见: Field.setOmitNorms()

(Yonik Seeley, LUCENE-448)

22. 增加对 contrib/highlighter 的 NullFragmenter , 这对全文本加亮很有用。

(Erik Hatcher)

23. 增加了正则表达式的查询: RegexQuery 和 SpanRegexQuery。

(Erik Hatcher)

24. 增加 ConstantScoreQuery 类,它包装了一个 filter produces a score

equal to the query boost for every matching document.

(Yonik Seeley, LUCENE-383)

25. 增加了 ConstantScoreRangeQuery 类,为某个区间的每个文档提供一个不变的 score。这个类比普通的 RangeQuery 类的好处是它并不展开到 BooleanQuery ,因此也不存在区间最大term上限。

(Yonik Seeley, LUCENE-383)

26. 为BooleanQuery增加了最小的匹配短语。见:BooleanQuery.setMinimumNumberShouldMatch().

(Paul Elschot, Chris Hostetter via Yonik Seeley, LUCENE-395)

27. 增加了 DisjunctionMaxQuery 类,提供了针对某个短语的最大score。

这一点对多字段的搜索非常有用。

(Luc Vanlerberghe via Yonik Seeley, LUCENE-323)

28. 新增类:ISOLatin1AccentFilter ,用 ISO Latin 1 字符集中的unaccented类字符替代 accented 类字符。

(Sven Duzont via Erik Hatcher)

29. 新增类:KeywordAnalyzer。"Tokenizes" 整个流作为一个单独的token。

这个类对于 邮政编码,序列号,和产品名称等比较有用。

(Erik Hatcher)

30. 把 LengthFilter 类从 contrib 放到了 core 代码里。从 stream 中去掉太长和太短的单词。

(David Spencer via Otis and Daniel)

31. 增加了 getPositionIncrementGap 方法到 Analyzer 中。这样用户自定义的 analyzer 可以在相同字段名的实例之间增加间隙 gaps,用来防止 phrase 和 span 查询超出边界。默认的 gap 是 0 。

(Erik Hatcher, with advice from Yonik)

32. StopFilter 增加了对处理stop words 的忽略大小写处理。

(Grant Ingersoll via Yonik, LUCENE-248)

33. 增加了 TopDocCollector 和 TopFieldDocCollector。用来简化实现hit 集合针对 top-scoring 和 top-sorting hits的处理。

API 的改变:

1. 几个方法和字段已经被废弃。在API 文档中包含了建议替换的内容。在这些建议中,这些不建议使用的方法和字段将会在Lucene2.0中被删除。(Daniel Naber)

2. Russian 和 German 的 analyzers 被移到了 contrib/analyzers 。

同样 WordlistLoader 类也被放到了 org.apache.lucene.analysis.WordlistLoader 下 (Daniel Naber)

3. API 包含抛出 IOException 异常的声明,但是实际上不会抛出。 These declarations have been removed. If

your code tries to catch these exceptions you might need to remove

those catch clauses to avoid compile errors.(Daniel Naber)

4. 为BooleanClause 类的enum 标准参数增加序列化的参数类。 (Christoph)

5. 为 SpanQuery 的子类嵌套其他SpanQuery 增加了 rewrite方法。

Lucene 的源代码管理器也从cvs 换到了svn:

http://svn.apache.org/repos/asf/lucene/java/trunk

参考资料:http://blog.csdn.net/accesine960/archive/2006/02/28/612622.aspx

原文地址:

http://svn.apache.org/viewcvs.cgi/*checkout*/lucene/java/branches/lucene_1_9/CHANGES.txt?rev=379190

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
推荐阅读
 
 
 
>>返回首頁<<
 
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有