知识库 人物 历史 地理 自然 文化 艺术 社会 科学 技术 教育 生活 体育 企业 银行 组织 官职 外交 联合国 博物馆 基金会 纪念馆 军事组织 组织机构 职能部门 诺贝尔奖 汉族 民俗 风俗 婚俗 姓氏 习俗 百家姓
  自动分词           

自动分词

自动分词是基于字符串匹配的原理进行的;所谓自动分词方法,指的是汉字字符串匹配

的进行方式。

1. 最大匹配法 亦称MM法;其基本思想是这样的,假设自动分词词典(或词库)中的最

长词条是i个字,则取被处理材料当前字符串序列中的前i个字作为匹配字段,查找词

典,若词典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来;

如果在词典中找不到这样一个i字词,则匹配失败,匹配字段去掉最后一个字,剩下的

字段重新进行匹配,如此进行下去,直到匹配成功,也就是完成一轮匹配,切分出一个

词为止。

这种分词方法,在由北京航空学院等十多个单位协同进行的我国第一次大规模现代汉语

词频统计工作中,实现了我国第一个自动分词系统CDWS。

2. 逆向最大匹配法 亦称OMM法,或RMM,IMM法;其基本原理和MM法相同,不同的是分

词切分方向;它从被处理材料的末端开始匹配,每次取最末端的i个字作为匹配字段,

匹配失败则去掉最前面的一个字。OMM法要求配置逆序分词词典。

3. 逐词遍历匹配法, 它把词典中的词按照由长到短递减的顺序逐个搜索匹配整个代处

理材料,直到把所有的词都切分出来为止。

4. 设立切分标志法 ,这种方法首先要收集那些标点符号(称为自然切分标志)以外的

众多非自然切分标志,例如,只充当词首字或词尾字的字,对这些非自然切分标志进行

搜索,根据这些标志,把句子切分为若干较短的字段,然后再使用MM或者OMM等方法进

行进一步的切分。准确的说,这种方法并不是一种真正意义上的分词方法,只不过是自

动分词的一种前处理方式而已。而且,这种前处理并没有提高分词精确度,却要额外消

耗时间扫描切分标志,增加分词的时间复杂度。

5. 正向最佳匹配法和逆向最佳匹配法 最佳匹配法的出发点,是在词典中按词频的大

小排列词条,以求缩短对分词词典的搜索时间,达到最佳效果,从而降低分词的时间复

杂度,以加快分词速度。实际上,这是对分词词典预先进行的一种加工,也不是纯粹意
义上的一种分词方法。

上一篇:知识:王月村  下一篇:知识:暴室
∷排行知识文章∷ ∷推荐知识文章∷
· 公孙龙子
· 鸡毛店
· 性状
· 超速离心
· 安身之处
· 光源
· 定窑四季花卉印花碗模
· 晒图机
· 中和
· 漂亮
· 松鼠鱼
· 大成国
· 牛群
· 运动饮料
· 数据库对象
· 保罗·约瑟夫·戈培尔
· 黑棒
· 天水
· 丢包
· 唱反调
· 元顺帝
· 悬铃花
· 李大双
· 自怨自艾
Copyright © 2006-2008 版权所有 中华知识库
本站资源均来源于网络,如侵犯了您的版权,请来信告知,我们将立即改正!
信箱: QQ:26655353 粤ICP备05006761号

 股票 贸易 钱币 铸币 税收 营销 证券 流行 另类 涂鸦 饰品 模特 茶道 纹身 手绘 暴走 自拍 品牌