全文索引 - 王朝网络宽屏版

全文索引技术是目前搜索引擎的关键技术。

试想在1M大小的文件中搜索一个词，可能需要几秒，在100M的文件中可能需要几十秒，如果在更大的文件中搜索那么就需要更大的系统开销，这样的开销是不现实的。

所以在这样的矛盾下出现了全文索引技术，有时候有人叫倒排文档技术。

原理是先定义一个词库，然后在文章中查找每个词条(term)出现的频率和位置，把这样的频率和位置信息按照词库的顺序归纳，这样就相当于对文件建立了一个以词库为目录的索引，这样查找某个词的时候就能很快的定位到该词出现的位置。

问题在处理英文文档的时候显然这样的方式是非常好的，因为英文自然的被空格分成若干词，只要我们有足够大的词汇库就能很好的处理。但是亚洲文字因为没有空格作为断词标志，所以就很难判断一个词，而且人们使用的词汇在不断的变化，而维护一个可扩展的词汇库的成本是很高的，所以问题出现了。

解决出现这样的问题使“分词”成为全文索引的关键技术。目前有两中基本的方法：

二元法它把所有有可能的每两两汉字的组合看为一个词组，这样就没有维护词库的开销。

词库法它使使用词库中的词作为切分的标准，这样也出现了词库跟不上词汇发展的问题，除非你维护词库。

实际上现在很多著名的搜索引擎都使用了多种分词的办法，比如“正向最大匹配”+“逆向最大匹配”，基于统计学的新词识别，自动维护词库等技术，但是显然这样的技术还没有作到完美。

目前全文索引技术正走向人工智能化，也是发展的方向。

MicroSoft SqlServer 2000/2005 中的全文索引是由一系列存储过程来完成的，这些存储过程按先后顺序罗列如下：

1、启动数据库的全文索引服务存储过程：sp_fulltext_service

2、初始化全文索引存储过程：sp_fulltext_database

3、建立全文索引目录存储过程：sp_fulltext_catalog

4、在全文索引目录中添加删除表标记存储过程：sp_fulltext_table

5、在全文索引目录的表中添加或删除列标记存储过程：sp_fulltext_column