机器人 小叮咚的 中文分词终于跨出了第一步

王朝other·作者佚名  2008-05-31
窄屏简体版  字體: |||超大  

机器人 小叮咚的中文分词终于跨出了第一步

机器人 小叮咚的帐号:

QQ:

443803193

MSN:

xiaodingdong21@hotmail.com

主页: http://xiaodingdong.myshow.cn/index.ASP

网络上有很多算法,借鉴了一下,然后自己用最普通得方法做了一个分词

现在还没有和小叮咚集成,等效果比较满足后,加入小叮咚得问答程序组件。

原理是:

对 待解析得句子(长度N)做N次循环

在每次循环中寻找从当前开始位置开始出现的最大词组

(递归实现,先判定第一个,比如“我”,假如存在,把“我们”加起来判定,以此类推....)

找到后返回最大词组,并跳跃到最大词组后得字 重复循环

下面是分词的效果

s = "我们要好好学习天天向上,努力工作,真想睡觉!";

我们要好好学习天天向上

s = "网站计数器都是一种最简单的网络程序应用";

网站计数器都是一种最简单的网络程序应用

s="对我们来说他是一个创造尊严的人一个带来快乐的人一个与许多巴勒斯坦人相比生活异常简单的人他带给巴勒斯坦希望这是难以失去他的真正原因";

对我们来说他是一个创造尊严的人一个带来快乐的人一个与许多巴勒坦人相比生活异常简单的人他带给巴勒坦希望这是难以失去他的真正原因

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
 
 
© 2005- 王朝網路 版權所有 導航