汉英机器翻译若干关键技术研究(中文信息处理丛书)
分類: 图书,计算机/网络,行业软件及应用,
作者: 刘群著
出 版 社: 清华大学出版社
出版时间: 2008-10-1字数: 254000版次: 1页数: 153印刷时间: 2008/10/01开本: 16开印次: 1纸张: 胶版纸I S B N : 9787302183587包装: 平装编辑推荐
本书是作者所在的课题组近年来在汉英机器翻译研究方面所取得进展的一个阶段性总结。内容涉及汉英机器翻译的各个主要方面及关键技术,包括对目前国际上机器翻译研究进展的综述,汉语词法分析技术、汉语句法分析技术、汉语词汇语义相似度计算、汉英双语语料库的词语对齐、语料库的结构对齐、基于结构对齐语料库的翻译模板抽取、多引擎机器翻译方法等多方面的研究成果。本书共有以下10章,主要围绕汉英机器翻译中的一些关键技术展开讨论。
内容简介
本书是作者所在的课题组近年来在汉英机器翻译研究方面所取得进展的一个阶段性总结。内容涉及汉英机器翻译的各个主要方面及关键技术,包括对目前国际上机器翻译研究进展的综述,汉语词法分析技术、汉语句法分析技术、汉语词汇语义相似度计算、汉英双语语料库的词语对齐、语料库的结构对齐、基于结构对齐语料库的翻译模板抽取、多引擎机器翻译方法等多方面的研究成果。
本书可供从事计算语言学、自然语言处理、中文信息处理、机器翻译等领域研究工作的人士参考,也可以作为大学相关专业高年级本科生和研究生课程的参考书。
目录
第1章 机器翻译方法综述
1.1 机器翻译的范式
1.2 基于平行语法的机器翻译方法
1.2.1 Alshawi的基于加权中心词转录机的统计机器翻译方法
1.2.2 吴德凯的反向转录语法
1.2.3 Takeda的基于模式的机器翻译上下文无关语法
1.3 基于实例的机器翻译方法
1.3.1 起源与发展
1.3.2 Sato和Nagao的方法
1.3.3 Kaii的方法
1.3.4 CMU的泛化的基于实例的机器翻译方法
1.3.5 基于实例的机器翻译方法的优缺点
1.4 基于信源信道模型的统计机器翻译方法
1.4.1 IBM的统计机器翻译方法
1.4.2 王野翊在卡内基梅隆大学(CMU)的工作
1.4.3 约翰霍普金斯大学(JHU)的统计机器翻译夏季研讨班
1.4.4 Yamada和Knight的工作——基于句法的统计翻译模型
1.4.5 Och等的工作
1.5 基于对数线性模型的统计机器翻译方法
1.5.1 对数线性模型
1.5.2 基于短语的统计翻译模型
1.5.3 基于句法的统计翻译模型
1.6 多引擎机器翻译方法
1.6.1 Pangloss系统
1.6.2 Verbmobil系统
1.7 机器翻译方法的分类
1.7.1 按翻译转换的层面进行分类
1.7.2 按语言知识的表示形式进行分类
1.8 小结
第2章 基于层叠隐马尔可夫模型的汉语词法分析
2.1 汉语分析技术概述
2.1.1 汉语词法分析的难点
2.1.2 汉语词法分析的任务和前人的工作
2.2 汉语词法分析的层叠隐马尔可夫模型
2.2.1 隐马尔可夫模型简介
2.2.2 层叠隐马尔可夫模型的结构
2.2.3 层叠隐马尔可夫模型的核心数据结构——词图
2.2.4 层叠隐马尔可夫模型的参数训练
2.3 粗切分:基于一元语法的N最短路径方法
2.4 未定义词识别:基于角色的隐马尔可夫模型
2.4.1 模型的定义
2.4.2 角色的选取
2.4.3 角色的标注
2.4.4 未定义词的提取
2.4.5 参数训练
2.5 未定义词的概率估计:基于角色的词语生成模型
2.5.1 问题的由来
2.5.2 模型的定义
2.6 细切分:词汇化的隐马尔可夫模型
2.6.1 模型的定义
2.6.2 最短路径的求解
2.6.3 参数估计
2.7 词性标注:基于词性的隐马尔可夫模型
2.7.1 基于隐马尔可夫模型的词性标注
2.7.2 词性标记集的选择与转换
2.8 实验结果
2.8.1 各层隐马尔可夫模型的对比实验
2.8.2 在国家“973”计划评测中的测试结果
2.8.3 第一届国际分词大赛的评测结果
2.9 小结
第3章 融合语义知识和词汇化上下文概率语法的汉语句法分析
3.1 前言
3.2 Baseline句法分析器
3.3 语义知识集成
3.3.1 语义类抽取
3.3.2 构建基于类的选择偏向模型
3.3.3 实验结果
3.3.4 性能改进分析
3.4 基于汉语宾州树库的句法分析相关工作
3.5 小结
第4章 汉语词法分析与句法分析融合策略研究
4.1 引言
4.2 句法分析系统
4.2.1 融合语义知识的词汇化概率上下文无关语法模型
4.2.2 结构上下文模型
4.2.3 多子模型句法分析器
4.3 词法分析系统(ICTCLAS)
4.4 融合策略
4.4.1 切分转换:基于转换的错误驱动学习
4.4.2 标记转换:条件随机场
4.4.3 转换实验
4.5 实验与分析
4.6 比较
4.7 小结
第5章 基于“知网”的词汇语义相似度计算
5.1 引言
5.2 词语相似度及其计算的方法
5.2.1 什么是词语相似度
5.2.2 词语相似度与词语距离
5.2.3 词语相似度与词语相关性
5.2.4 词语相似度的计算方法
5.3 “知网”简介
5.3.1 “知网”的结构
5.3.2 “知网”的知识描述语言
5.4 基于“知网”的语义相似度计算方法
5.4.1 词语相似度计算
5.4.2 义原相似度计算
5.4.3 虚词概念的相似度的计算
5.4.4 实词概念的相似度的计算
5.5 实验及结果
5.6 小结
第6章 词语对齐的对数线性模型
6.1 引言
6.2 对数线性模型
6.3 特征函数
6.3.1 IBM翻译模型
6.3.2 词性标记转换模型
6.3.3 双语词典
6.4 训练
6.5 搜索
6.6 实验结果
6.7 小结
第7章 一种双语短语结构对齐搜索算法
7.1 双语对齐技术概述
7.1.1 各种层次的语言单位上的对齐技术
7.1.2 短语结构对齐的定义
7.1.3 短语结构对齐的过程
7.1.4 短语结构对齐的问题和难点
7.1.5 现有的短语结构对齐技术
7.2 一种双语短语结构对齐的搜索算法
7.2.1 算法简介
7.2.2 局部对齐
7.2.3 短语结构对齐的柱形搜索(beam search)算法
7.2.4 局部对齐的归并
7.2.5 局部对齐的评分
7.2.6 搜索算法的时间复杂度分析
7.3 实验及结果分析
7.3.1 实验方案
7.3.2 实验语料来源及规模
7.3.3 短语结构对齐的实例分析
7.3.4 实验结果及分析
7.3.5 实验结果的进一步分析
7.4 小结
第8章 短语结构转换模板的提取与应用
8.1 基于模板的机器翻译概述
8.2 短语结构转换模板定义
8.3 短语结构转换模板举例
8.4 短语结构转换模板的提取
8.5 短语结构转换模板的应用——基于模板的转换
8.6 实验结果
8.6.1 实验语料的来源及规模
8.6.2 实验结果分析
8.7 小结
第9章 微引擎流水线机器翻译系统结构
9.1 微引擎流水线的基本思想
9.2 微引擎流水线的系统结构
9.3 微引擎流水线的公共数据结构
9.4 各种微引擎的程序接口和功能说明
9.5 微引擎调度算法
9.6 面向新闻领域的汉英机器翻译系统
9.6.1 研究背景
9.6.2 系统实现方案
9.7 实验结果及分析
9.8 小结
第10章 总结及今后的工作
附录 汉语词性标记集ICTPOS
参考文献
后
书摘插图
第1章 机器翻译方法综述
经过50多年的发展,产生了很多不同的机器翻译方法。比如,人们常常提到基于规则的方法、基于统计的方法、同基于规则相结合的方法、基于实例的方法、中间语言方法、转换方法、基于知识的方法,等等。这些方法种类繁多,都有各自的优缺点。但这些方法往往是从不同角度、不同层面出发的,互相之间并不一定具备可比性。人们在初次接触机器翻译时,往往会被如此众多的方法所迷惑,如坠雾中,不容易理解这些方法之间内在的区别与联系。
本章将从范式(paradigm)和分类这两个角度对机器翻译方法进行初步梳理,不仅要对各种机器翻译方法作一个概要介绍,而且试图刻画出它们之间的联系与区别。
范式,指的是对某些具体的机器翻译实现方法的一种抽象和归纳。范式往往要对机器翻译方法的某些方面作出明确规定,而对另外一些方面可以没有明确要求。但由于范式往往都有一些典型的实现方法或具体系统,所以即使对那些没有明确要求的方面,人们往往也都有一些默认的理解。比如说,基于转换的方法,作为一种范式,本身并没有规定采用规则方法还是统计方法,但人们谈到这种方法时,往往把它理解成一种基于规则的方法。这是由于该方法出现时,还没有出现现在意义上的统计机器翻译方法。而且一些典型的基于转换的系统,也都是采用规则方法实现的。另外,不同的范式往往对机器翻译方法的不同方面和不同层次作出规定,所以范式之间往往不具有可比性。可以这么说,通过范式对机器翻译方法进行总结,就是人们常说的抓典型的方法,或解剖麻雀的方法。通过对范式的研究,可以起到解剖麻雀的作用,有助于对机器翻译的实现技术进行比较全面和深入了解。
……