前 言
生物信息学(bioinformatics)是80年代未随着人类基因组计划(Human genome project)的启动而兴起的一门新的交叉学科。它涉及生物学、数学、计算机科学和工程学,依赖于计算机科学、工程学和应用数学的基础,依赖于生物实验和衍生数据的大量储存。生物信息学不只是一门为了建立、更新生物数据库及获取生物数据而联合使用多项计算机科学技术的应用性学科,也不仅仅是只限于生物信息学这一概念的理论性学科。事实上,它是一门理论概念与实践应用并重的学科。
生物信息学的产生发展仅有10年左右的时间---bioinformatics这一名词在1991年左右才在文献中出现,还只是出现在电子出版物的文本中。事实上,生物信息学的存在已有30多年,只不过最初常被称为基因组信息学。
基因组信息是生物信息中最基本的表达形式,并且基因组信息量在生物信息量中占有极大的比重,但是,生物信息并不仅限于基因组信息,生物信息学也不等于是基因组信息学。广义的说,生物信息不仅包括基因组信息,如基因的DNA序列、染色体定位,也包括基因产物(蛋白质或RNA)的结构和功能及各生物种间的进化关系等其他信息资源。生物信息学既涉及基因组信息的获取、处理、贮存、传递、分析和解释,又涉及蛋白质组信息学如蛋白质的序列、结构、功能及定位分类、蛋白质连锁图、蛋白质数据库的建立、相关分析软件的开发和应用等方面,还涉及基因与蛋白质的关系如蛋白质编码基因的识别及算法研究、蛋白质结构、功能预测等,另外,新药研制、生物进化也是生物信息学研究的热点。1995年,在美国人类基因组计划(HGP)第一个五年总结报告中给出了一个较为完整的生物信息学的定义:生物信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于了解大量的生物学意义。
生物信息学的当前研究内容主要包括:实验数据的自动化获取、加工和整理;DNA序列的拼接;基因/编码区域的预测;基因功能预测及蛋白组分析;蛋白质结构和功能的预测等。全基因组DNA测序是基因组研究的最基本任务。随着大规模shotgun DNA自动测序技术的普及应用以及各种模式生物基因组研究的广泛开展,一个典型的基因测序中心每年就要产生1014字节的原始数据,大量序列片段的拼接(fragment assembly)及数据和结果的可视化需要高效快速的算法和有效的处理手段。因此,研究高效算法,发展适用的处理手段,便成为其中的主要研究热点之一。