文本信息分析与全文检索技术
分類: 图书,社会科学,语言文字 ,
作者: 化柏林编著
出 版 社: 科技文献出版社
出版时间: 2008-8-1字数: 445000版次: 1页数: 301印刷时间: 2008/08/01开本: 16开印次: 1纸张: 胶版纸I S B N : 9787502361808包装: 平装内容简介
本书主要从核心算法、关键技术、技术实例、发展趋势等方面对文本信息分析技术及全文检索技术进行了剖析与探。主要内容包括中文分词与语法分析、文献计量分析技术、网络搜索引擎原理与实例、全文检索技术与实例等,对一些前沿专题——信息抽取、自动问答、列表搜索、知识抽取、辅助审稿、对联生成等进行了探讨。
本书内容新颖、观点独特、案例翔实,注重用实践阐释理论,可以作为情报学研究生的教材,也可供情报研究人员和信息搜索企业参考。
目录
第1章 概论
第1节 从学科特性探析情报学核心技术
1.情报学与图书馆学
2.情报学与管理科学
3.情报学与计算机科学
4.情报学与通信科学
5.情报学与智能科学
6.情报学与计算语言学
7.情报学的核心技术
第2节 信息分析内容
1.信息的分类
2.信息分析的要素
3.从语言的分析层面看文本信息分析
第3节 信息分析过程
1.从IPO看信息分析处理过程
2.从计量分析实例看信息分析过程
3.从情报分析实例看信息分析过程
第4节 信息分析方法
1.人工定性分析
2.人工定量分析
3.计算机定量分析
4.计算机定性分析
5.小结
第5节 自然语言处理概论
1.自然语言的分类
2.自然语言处理的概念
3.自然语言处理层面
4.自然语言处理过程
第2章 词法分析技术
第1节中文分词方法与处理流程
1.中文分词方法的传统分类
2.中文分词方法的过程分类
第2节分词预处理技术
1.停用词单独处理的意义
2.停用词的认定与选取
3.停用词的获取
4.停用词表的组织方式
5.真假停用词的识别
6.停用词处理的关键
第3节切分处理
1.无词表切分方法
2.向量切分方法
3.向量切分关键技术
4.向量切分的词典排序与查找技术
5.嵌套向量切分技术
6.向量分词的关键与发展
第4节分词后处理技术
1.未登录词识别
2.中文分词歧义分析
3.最大概率消歧法
4.基于互信息的消歧法
5.回溯消歧
第5节词性标注
1.高频优先法
2.基于隐马尔科夫模型的方法
3.基于规则的方法
第3章 语法分析技术
第1节语法分析基础理论
1.语法模型与语法计算
2.语法开发平台和语言理论模型
第2节句法分析过程
1.语法表示
……
第4章 文献信息计量分析技术
第5章 文献计量分析研究实例
第6章 网络信息搜索引擎
第7章 全文检索系统原理与实例
第8章 面向情报检索的文本信息分析
第9章 面向文献处理的文本信息分析
第10章 面向知识工程的文本信息分析
第11章 面向学术问题的文本信息分析
第12章 面向传统文化的文本信息分析
参考文献
附录
书摘插图
第1章 概论
通过对情报学与图书馆学、管理科学、计算机科学、通信科学、智能科学以及计算语言学之间的差异性分析可以探析情报学的核心技术。经过差异性探析可以得出结论,认为情报学的核心技术主要是信息分析技术。其中相当数量的信息以文本形式展现,因此文本信息分析技术在情报技术领域占有相当重要的地位。
信息分析技术,就是运用系统分析的思想,借助智能计算模型的支撑,适当涉及语言处理的各个层面,对处理对象(包括数据、信息、知识)进行形式、结构及语义等要素的分析以实现抽取、挖掘、发现、创新等操作,对每一种操作分析出其中的系统架构、关键技术、主要难点、资源支撑、应用前景以及发展趋势等。
信息分析主要考虑信息源、信息目标、处理方法与处理过程。不同的信息源决定着不同的过程与方法,如数值型信息与文本信息的分析过程与方法就不相同,不同的分析目标也有着不同的过程与方法,如实现信息的序化与实现信息的转化,其分析过程与方法有所不同。信息分析以IPO(Input Process Output,输入输出处理)为主线,重点关注每一步处理的输入如何,输出如休,中间经过哪些分析,每一步考虑哪些因素,有哪些方法,每种方法有何优缺点。有些分析是把整个过程分为几个阶段或处理步骤,每个阶段有几种方法,从中择优分析;有些分析是整个过程有几种方法,每种方法又分为几个步骤。前者强调分析的过程,后者强调分析的方法。
……