小叮咚切分词方法加入sourceforge.net中WebLucene分词模块

小叮咚采用的是逆向最大匹配分词法，算法简单，可以满足大部分的分词应用。现在已经集成到WebLucene项目中，开放源代码。有需要的朋友可以下载代码使用。

这个版本还没有实现我在一种面向搜索引擎的中文切分词方法一文中提到的分词思路。比如：汉字的StopWords,对标点符号的处理等等。

也希望对分词感兴趣的朋友一起讨论实现改进实现小叮咚分词的切分效果。

下面是Readme.txt中的内容：

使用说明：

-------------------------------------------------------------------------

||| !!! 注意分词的词库位置：

||| Util.java 中的配置路径一定要正确,指向：dict\chinesePhraseIndex

||| 词库包括3个文件：

||| 2005-01-13 16:05 4 deletable

||| 2005-01-13 16:24 0 a.txt

||| 2005-01-13 16:05 30 segments

||| 2005-01-13 16:05 1,485,193 _11p5.cfs

||| 4 个文件 1,485,227 字节

-------------------------------------------------------------------------

java类说明：

SentenceSpliter.java

分词主类,可以直接运行来打印测试分词语句.

ChineseAnalyzer.java

ChineseTokenizer.java

是为lucene写的中文分词算法，其中调用了SentenceSpliter.java来获得分词结果。

SearchUtil.java 中说明了使用ChineseAnalyzer的方法。

-------------------------------------------------------------------------

使用的类库：

java jdk 1.4.2

lucene-1.4.3.jar

java-getopt.jar

下载地址：http://apache.justdn.org/jakarta/lucene/binaries/lucene-1.4.3.zip