Lucene 全文检索实践一

王朝java/jsp·作者佚名  2006-01-10
窄屏简体版  字體: |||超大  

Lucene 是 Apache Jakarta 的一个子项目,是一个全文检索的搜索引擎库。其提供了简单实用的 API,通过这些 API,可以自行编写对文件(TEXT/XML/HTML等)、目录、数据库的全文检索程序。

Features:

* Very fast indexing, minimal RAM required

* Index compression to 30% of original text

* Indexes text and HTML, document classes available for XML, PDF and RTF

* Search supports phrase and Boolean queries, plus, minus and quote marks, and parentheses

* Allows single and multiple character wildcards anywhere in the search words, fuzzy search, proximity

* Will search for punctuation such as + or ?

* Field searches for title, author, etc., and date-range searching

* Supports most European languages

* Option to store and display full text of indexed documents

* Search results in relevance order

* APIs for file format conversion, languages and user interfaces

实践任务:

1) 编写 Java 程序 MyIndexer.java,使用 JDBC 取出 MySQL 数据表内容(以某一论坛数据做测试),然后通过 org.apache.lucene.index.IndexWriter 创建索引。

2) 编写 Java 程序 MySearcher.java,通过 org.apache.lucene.search.IndexSearcher 等查询索引。

3) 实现支持中文查询及检索关键字高亮显示。

4) 通过 PHP / Java Integration 实现对 MySearch.java 的调用。

5) 实现对 PHP 手册(简体中文) 的全文检索。

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
 
 
© 2005- 王朝網路 版權所有 導航