机器人 小叮咚的 中文分词终于跨出了第一步

1/5/2008来源:Java教程人气:5526

 

机器人 小叮咚的中文分词终于跨出了第一步

机器人 小叮咚的帐号:

QQ:
        443803193
MSN:
        xiaodingdong21@hotmail.com

主页: http://xiaodingdong.myshow.cn/index.asp

网络上有很多算法,借鉴了一下,然后自己用最普通得方法做了一个分词
现在还没有和小叮咚集成,等效果比较满足后,加入小叮咚得问答程序组件


原理是:
对 待解析得句子(长度N)做N次循环

在每次循环中寻找从当前开始位置开始出现的最大词组
(递归实现,先判定第一个,比如“我”,假如存在,把“我们”加起来判定,以此类推....)

找到后返回最大词组,并跳跃到最大词组后得字 重复循环

下面是分词的效果

s = "我们要好好学习天天向上,努力工作,真想睡觉!";
我们要好好学习天天向上

s = "网站计数器都是一种最简单的网络程序应用";
网站计数器都是一种最简单的网络程序应用


s="对我们来说他是一个创造尊严的人一个带来快乐的人一个与许多巴勒斯坦人相比生活异常简单的人他带给巴勒斯坦希望这是难以失去他的真正原因";

对我们来说他是一个创造尊严的人一个带来快乐的人一个与许多巴勒坦人相比生活异常简单的人他带给巴勒坦希望这是难以失去他的真正原因