机器人 小叮咚的中文分词终于跨出了第一步
机器人 小叮咚的帐号:
QQ:
443803193
Msn:
主页: http://xiaodingdong.myshow.cn/index.asp
网络上有很多算法,借鉴了一下,然后自己用最普通得方法做了一个分词
现在还没有和小叮咚集成,等效果比较满意后,加入小叮咚得问答程序组件。
原理是:
对 待解析得句子(长度N)做N次循环
在每次循环中寻找从当前开始位置开始出现的最大词组
(递归实现,先判断第一个,比如“我”,如果存在,把“我们”加起来判断,以此类推....)
找到后返回最大词组,并跳跃到最大词组后得字 重复循环
下面是分词的效果
s = "我们要好好学习天天向上,努力工作,真想睡觉!";
我们||要好||好学||习||天天||向上||
s = "网站计数器都是一种最简单的网络程序应用";
网||站||计数||器||都||是||一种||最||简单||的||网络||程序||应用||
s="对我们来说他是一个创造尊严的人一个带来快乐的人一个与许多巴勒斯坦人相比生活异常简朴的人他带给巴勒斯坦希望这是难以失去他的真正原因";
对||我们||来||说||他||是||一个||创造||尊严||的||人||一个||带来||快乐||的||人||一个||与||许多||巴||勒||||坦||人||相比||生活||异常||简朴||的||人||他||带给||巴||勒||||坦||希望||这||是||难以||失去||他||的||真正||原因||