分享
 
 
 

实现文本自动分类的基础----Term频率计算方法

王朝other·作者佚名  2006-01-09
窄屏简体版  字體: |||超大  

实现文本自动分类的基础----Term频率计算方法

据说如今互联网上的文档每天以100万的数量增长,这么大的增长量使得Google可能需要1个月甚至更长的时间才能光顾你的网站一次。所以如果你今天对你的网页做了优化,那么1个月后在看Google的反应吧。这真是信息爆炸的年代。互联网刚诞生的时候,通过目录导航机制,我们就能找到所需要的信息,Yahoo抓住这个机会成功了;后来随着互联网的普及,信息爆炸的速度让目录导航失去了效应,Google抓住了这个机会,提出有特色搜索算法,让人们不理会目录机制也能找到信息,Google也成功了。可是正如我们不能有了互联网就把报纸丢弃一样,目录导航的机制仍然发挥着作用。观察一下Google的推出的个性搜索服务就可以发现,为了让用户搜索的内容更相关,Google正鼓励你使用预定搜索频道。

也就是说搜索的目录分类机制仍然存在,但是不直接面对最终用户,而是面对搜索引擎,即根据文档内容自动分类。

根据文档内容自动分类的方法有很多种,本文介绍一下Term频率计算方法。

向量空间模型的基本思想是把文档看成一个根据其中字词出现频率权重的向量.为了减少信息的噪音,这里面的字词需要经过如下步骤的处理:

1、对文档进行分词,取出文档中包含的所有字词(term);

2、消除掉没有意义的字词(term),比如汉语的:是,的 等;

3、统计计算每个字词(term)出现的频率;

4、根据需要过滤掉出现频率高的那部分词(term)和出现频率低的那部分词(term)(类似综艺节目中去掉最高分和最低分的做法);

5、处理到这步后,我们假设一共有w个最终的字词,然后对这些字词分别标注一个唯一的标记。

处理到这一步,后面的步骤就依算法的不同而各异了。但有一个共同的特点,就是必须依赖字词(term)的权重。字词的权重直接依赖于他们出现的频率。因为我们要分析的是成千上万的文档,所以字词在一个文档中出现的频率并不能说明问题,因此在考虑字词权重的时候也要考虑多个文档的因素。

现在我们抽象的考虑一下:

1、假设需要处理的文档是一个D对象的集合;

2、分类就是一个模糊的A描述,A就是一个D的子集;

3、我们分类的难点就是区分D对象更加倾向于那个子集A(分类)。

所以这样看来决定字词权重的应该包括下面3个部分:

1、字词本身出现的频率因素,确定字词在当前文档中的重要程度;

2、文档长度的因素;

3、全部文档包含Term出现的频率,确定字词在全部文档中的重要程度;

如果能比较准确的得到字词的频率,再加上统计的方法,对文档归类就应该更加准确吧。

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
推荐阅读
 
 
 
>>返回首頁<<
 
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有