分享
 
 
 

中文信息处理

王朝百科·作者佚名  2010-01-13
窄屏简体版  字體: |||超大  

中文信息处理是指用计算机对中文的音、形、义等信息进行处理和加工。中文信息处理是自然语言信息处理的一个分支,是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科。信息处理技术在现代有广泛的应用,从1980年代开始,中文信息处理进入了快速发展阶段,并极大地提高了中文社会的信息处理效率。

中文信息处理分为汉字信息处理与汉语信息处理两部分,具体内容包括对字、词、句、篇章的输入、存储、传输、输出、识别、转换、压缩、检索、分析、理解和生成等方面的处理技术。

中文信息处理的文字。不仅包括简体汉字、繁体汉字,也包括藏文、蒙文、壮文、维吾尔文等大量少数民族的文字,还包括古汉语文字等。

研究内容

基础研究:汉字字频统计、词频统计、汉语自动分词、句法属性研究、汉字编码字符集、通用汉字样本库、汉字属性字典、语料库等

输入技术:中文输入法、中文手写输入、中文语音输入、文字识别等

输出技术:汉字字模技术(字型库)、汉字激光照排、汉语语音合成等

存储技术:汉字库标准等

转换技术:繁简转换等

信息处理:中文情报检索、中文文本校对、机器翻译、自然语言理解、中文人机界面等

发展过程及失误

中文信息处理至今经历了两次高潮:1980年代中期到1990年代中期之前,核心内容是汉字的计算机处理问题;经过几年的发展低潮之后,1990年代末,中文信息处理的重点转向语音识别、语音合成和语义处理方面。

汉字之难——被打字机抛弃的时代

在二十世纪上半页,英文打字机的普及极大的提高了文字资料的录入速度。而由于汉字的复杂性,使中文打字机迟迟未能设计出来,再加之基础汉字的学习难度大、时间长,连鲁迅都喊出“汉字不灭,中国必亡”。之后,虽然设计出中文打字机,但要配备数千个铅字组成的大字盘,昂贵的机器成本和复杂的使用技术决定它不能普及到大众使用。毛泽东对此也深感无奈,发出了中文“要走世界共同的拼音文字道路”的慨叹。这些局限于历史条件所限而做出的言论,在中文信息处理技术发展后期仍然被经常(断章取义的)提及。

1984年的《参考消息》有这样的记载:“法新社洛杉矶8月5日电 新华社派了22名记者,4名摄影记者和4名技术人员在奥运会采访和工作。在全世界报道奥运会的7000名记者中,只有中国人用手写他们的报道”……此时的中国人,只有中国人仍然用手写从事着创作。

汉字成了被打字机抛弃的“落后文明”,直到二十世纪八十年代PC技术推广下,中文PC系统问世,中文信息输入的问题,才有了初步解决。

汉字的拉丁化问题

汉字信息处理阶段

硬件:联想、巨人、四通等公司的汉卡,浪潮、紫金的中文电脑,四通中文打字机,大洋字幕机 软件: 输入法: 企业:联想、方正、四通等一批靠中文处理产品起家的企业。 标准、基础研究:中文信息处理界基本上完成了词频统计、多种字体显示/打印字库、汉字显示/打印技术、输入法、内码标准、字符集标准等与字相关的所有基础工作。倪院士说,到2000年,中国已制定了70个与中文信息处理相关的国家标准。 (学术理论:) 1990年代中期,最为普及的计算机操作系统由DOS升级到Windows平台。微软公司从中文版Windows 3.2开始,在操作系统里集成了汉字处理技术,使传统中文信息处理产品迅速失去了市场。中文信息处理进入一个低谷,原先做中文信息处理的公司纷纷转行。Windows 2000及以上版本,无论采用何种文字,均已支持中文处理。

中文电脑、中文编程语言、中文软件

互联网时代的中文处理

互联网时代对中文信息处理产生了新需求。互联网上的海量数据为中文信息检索提出了新的课题;其次,外文信息已经多到不能人工完翻译的程度,机器翻译的重要性被提到了空前的高度;第三,手机、PDA等移动设备将信息处理需求变成无处不在,非标准键盘的汉字输入需要有新的方案。大量新的课题出现,重新启动了中文信息工作的热情。

汉语信息处理阶段

数字图书馆

与此同时,为方便使国内各民族电脑化的步伐加快,政府作出一连串行动去使这些民族的语言更便于“计算机化”。这一连串行动包括以下各项:

取消民族语言中的特殊字符,尽可能以26个标准拉丁字母代替。(参看:壮语)

为还未有文字的民族设立以拉丁字母为本的新文字。

台湾方面,在1990年代曾引发“中文电脑化”及“电脑中文化”的争议。

资策会方面的意见:认为电脑的操作空间有限。如果不让中文适应电脑环境,中文就会失去新时代的活动能力而变成死的语言。

学界及业界的意见:操作空间有限的只是短时期的问题。随着电脑发展日新月异,操作空间的限制很快就变得没有意义。政府应该在新时代来临以前,及早制定长远的标准。

结果:资策会未能在ISO 10646开始讨论中日韩文字编码空间之前产生一个前瞻性的编码方案,加上当时中国大陆政府的阻挠,使繁体字几乎要在电脑世界消失。后来幸得多方面商讨和配合,同意中日韩三国共享编码空间,成为了今时今日的中日韩统一表意文字,而台湾的一万三千多个字亦准以“民间通用标准”为理由成为了统汉码的参考标准之一。电脑对汉字的亲和性增加,而Unicode在统汉码之后,亦不断推出扩展A、扩展B及扩展C计划,以涵盖历史上所有曾经出现过及使用过的汉字,并为它们编码记录。现时已整理好接近七万个汉字。

相关学科

语言文字学、计算机科学、模式识别、人工智能、心理学、数学、数理统计、控制论、神经计算、模型论、信息学、形式化理论、声学等

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
推荐阅读
 
 
 
>>返回首頁<<
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有