潜在语义学 - 王朝网络宽屏版

潜在语义学（Latent Semantic Analysis），是语义学的一个新的分支。传统的语义学通常研究字、词的含义以及词与词之间的关系，如同义，近义，反义等等。潜在语义学探讨的是隐藏在字词背后的某种关系，这种关系不是以词典上的定义为基础，而是以字词的使用环境作为最基本的参考。这种思想来自于心理语言学家。他们认为，世界上数以百计的语言都应该有一种共同的简单的机制，使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言。在这种思想的指导下，人们找到了一种简单的数学模型，这种模型的输入是由任何一种语言书写的文献构成的文库，输出是该语言的字、词的一种数学表达（向量）。字、词之间的关系乃至任何文章片断之间的含义的比较就由这种向量之间的运算产生。

潜在语义学的观念也被应用在资讯检索上，所以有时潜在语义学也被称为隐含语义索引（Latent Semantic Indexing，LSI）。

概述隐含语义索引是一种以向量空间模型为基底的资讯检索技术，常以字词－文件矩阵表示字词与文件之间的关联；而其多以列代表字词〈term〉，行代表文件〈document〉。

而在矩阵中每个元素的权重值以TF-IDF计算后得到。该字词在文件中的重要性与否，以字词在文件出现的次数以及字词在所有文件中出现的次数相关。

而这个字词－文件矩阵本身也代表着一个标准的语义模组，因为数学矩阵的格式并不是经常的被使用，所以不会太特别的注明其为一个矩阵的型态。