实现文本自动分类的基础----Term频率计算方法
据说如今互联网上的文档每天以100万的数量增长,这么大的增长量使得Google可能需要1个月甚至更长的时间才能光顾你的网站一次。所以如果你今天对你的网页做了优化,那么1个月后在看Google的反应吧。这真是信息爆炸的年代。互联网刚诞生的时候,通过目录导航机制,我们就能找到所需要的信息,Yahoo抓住这个机会成功了;后来随着互联网的普及,信息爆炸的速度让目录导航失去了效应,Google抓住了这个机会,提出有特色搜索算法,让人们不理会目录机制也能找到信息,Google也成功了。可是正如我们不能有了互联网就把报纸丢弃一样,目录导航的机制仍然发挥着作用。观察一下Google的推出的个性搜索服务就可以发现,为了让用户搜索的内容更相关,Google正鼓励你使用预定搜索频道。
也就是说搜索的目录分类机制仍然存在,但是不直接面对最终用户,而是面对搜索引擎,即根据文档内容自动分类。
根据文档内容自动分类的方法有很多种,本文介绍一下Term频率计算方法。
向量空间模型的基本思想是把文档看成一个根据其中字词出现频率权重的向量.为了减少信息的噪音,这里面的字词需要经过如下步骤的处理:
1、对文档进行分词,取出文档中包含的所有字词(term);
2、消除掉没有意义的字词(term),比如汉语的:是,的 等;
3、统计计算每个字词(term)出现的频率;
4、根据需要过滤掉出现频率高的那部分词(term)和出现频率低的那部分词(term)(类似综艺节目中去掉最高分和最低分的做法);
5、处理到这步后,我们假设一共有w个最终的字词,然后对这些字词分别标注一个唯一的标记。
处理到这一步,后面的步骤就依算法的不同而各异了。但有一个共同的特点,就是必须依赖字词(term)的权重。字词的权重直接依赖于他们出现的频率。因为我们要分析的是成千上万的文档,所以字词在一个文档中出现的频率并不能说明问题,因此在考虑字词权重的时候也要考虑多个文档的因素。
现在我们抽象的考虑一下:
1、假设需要处理的文档是一个D对象的集合;
2、分类就是一个模糊的A描述,A就是一个D的子集;
3、我们分类的难点就是区分D对象更加倾向于那个子集A(分类)。
所以这样看来决定字词权重的应该包括下面3个部分:
1、字词本身出现的频率因素,确定字词在当前文档中的重要程度;
2、文档长度的因素;
3、全部文档包含Term出现的频率,确定字词在全部文档中的重要程度;
如果能比较准确的得到字词的频率,再加上统计的方法,对文档归类就应该更加准确吧。