分享
 
 
 

基因组注释

王朝百科·作者佚名  2010-05-13
窄屏简体版  字體: |||超大  

图1 基因组重叠连续群测试序列注释结果

基因组注释(Genome annotation) 是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。从基因组序列预测新基因,现阶段主要是3 种方法的结合: (1) 分析mRNA 和EST数据以直接得到结果; (2) 通过相似性比对从已知基因和蛋白质序列得到间接证据[1 ] ; (3) 基于各种统计模型和算法从头预测。对预测出的基因进行高通量功能注释可以借助于以下方法,利用已知功能基因的注释信息为新基因注释: (1) 序列数据库相似性搜索; (2) 序列模体(Motif) 搜索; (3) 直系同源序列聚类分析(Cluster of orthologousgroup ,COG) [2 ] 。随着微生物全基因组序列测定速率的加快,开发有Web 接口的高效、综合基因组注释系统十分要。近年来,国际上已有一些这样的工具,如基于Java 的微生物基因组数据库接口。尽管JMGD 提供了一个很好的图形化接口程序,却并不具有基因组自动注释功能。德国国家环境和健康研究中心开发的蛋白质摘录、描述和分析工具(Protein extrac2tion , description , and analysis tool ,PEDANT) 是大型基因组分析系统,整合了大量基因组功能信息和结构信息。PEDANT 注释功能强大[3 ] ,适用范围广,但没有便于操作的图形界面,而且需要较强的硬件系统支持。目前,微生物基因组全序列测定通常由中小实验室独立完成,有必要开发和集成基于PCPLinux 系统并以免费数据库管理系统、免费软件和公共数据库资源为主的基因组信息注释系统。

1 系统和方法

111 开发环境

本系统基于PC 微机,操作系统为Linux。测试系统为PIII 550 双CPU 微机,内存1GB ,运行RedHat 710 Linux 系统。数据库管理系统使用MySQL ,Web 服务器程序使用Apache ,应用程序接口用Perl 脚本语言编写。本系统也可在单CPU 微机上运行,内存不小于512MB。所有系统软件和应用软件均可以从Internet 网上免费获得。

112 测试数据

本系统用蓝细菌( Synechococcus sp. ) PCC7002 基因组初步拼接所得最大重叠连续群(Contig) 作测试数据,共303247bp 。

113 MGAP 的基因组注释系统

基因组注释系统是MGAP 的核心,整合了许多常用的基因识别和蛋白质功能预测软件,包括GeneMarks、IPRsearch、BLASTPGP 和FASTA3 等,以及多个数据库,如非冗余蛋白质序列数据库(Non redundant , NR) 、已知三维空间结构的蛋白质序列数据库(PDBSeq) 、国际蛋白质资源信息系统( InterPro) [6 ] 和直系同源蛋白质家族数据库(Cluster of orthologousgroups ,COG) 等,编写了相应的模块进行自动操作,并把每一步注释结果导入数据库中。MGAP 整合的一般模块,可以被其他任何一种微生物基因组直接使用。不同实验室可根据实际研究需要,增加相应模块或数据,如蓝细菌Anabaena sp. strain PCC 7120 的蛋白质序列库等。

基因识别是MGAP 的第一步,本系统采用微生物基因组基因识别最为权威的Gene2Marks 软件进行基因预测,通过http :PPopal .biology.gatech.eduPGeneMarkPgenemarks. cgi 网站提交重叠连续群测试序列(303247bp) ,使用GeneMarks 缺省参数,预测得到279 个基因。

然后用MGAP 的数据加载模块(Loaddata) 将预测结果导入ORF 表中。

114 MGAP 的用户接口

用户接口用于展示注释结果,提供易于操作和分析平台。本系统用户接口基于Web设计开发,用户可通过浏览器访问基因组注释系统,包括基因组环状图展示、基因和ORF在染色体上分布图,并对注释信息进行检索。基因组环状基因分布图构建基于如下信息:预测所得基因的起始位置、长度,编码基因的正负链信息,以及预测的基因功能分类。

2 结果

图1 是MGAP 系统对PCC7002 基因组重叠连续群测试序列注释结果。A 为基因展示图,B 为ORF 显示页面。A 中由外向内依次为: (1) 正链编码基因; (2) 负链编码基因; (3)GC 含量统计; (4) GC 偏离量统计。该系统构建的环状基因组,可显示正负链上的编码基因,用相应颜色表示功能类别。本系统沿用经典蛋白质功能分类方法[8 ] ,即把微生物基因组所有基因按功能分为16 大类,进而细分为113 个子类。此外,还增加了统计GC 含量和GC 偏离量(GC Bias) 功能。计算GC 含量时以200bp 为滑动窗口,计算GC 偏离量时以13kb 为滑动窗口。GC 偏离量表示G和C 含量的差别,定义为: (G2C)P(G+ C) [9 ] 。点击A图中环状基因组展示图,则可得到B 图基因组局部ORF 显示页面。点击图中某个ORF ,即可调出其所有注释信息,包括该ORF 在基因组中的位置、长度、正负链信息、核酸和蛋白序列,以及对NR 蛋白库、COG数据库、InterPro 、PDBseq 数据库的搜索结果。所有结果都有相对应的连接可以直接连到原始数据库。

3 讨论

新基因组功能注释是基因组研究的重要方面,MGAP 把注释所用软件和公共数据库进行有机集成,使注释过程自动进行并把结果存储到数据库系统中,最终提供友好的界面,可为中小实验室提供方便实用的微生物基因组注释系统,减少人工参与,提高注释效率。该系统考虑到国内一般中小实验室的实际情况,基于廉价的PC 微机和免费Linux、MySQL 、Apache 和Perl 等软件系统开发。

必须指出,目前所有计算机注释信息,均不能保证完全准确。MGAP 在一定程度上依赖于现有数据库中的注释信息。由于各种原因,这些注释信息必然有一些错误。显然,这些错误信息将不可避免地引入新的注释系统。为此,MGAP 综合了多种注释方法,并互为补充。例如,一个ORF 既有BLASTP从NR 数据库搜索到的相似序列,又在InterPro 蛋白质模体库中找到相应功能位点,也可找到高分匹配的COGs ,那么该注释结果就比较可靠。此外,必要的人工注释,可以避免或纠正自动注释的错误。例如,由于测序错误产生的读码框移位或是缺失,会导致一个基因被拆分成两段,这种错误目前只能由手工纠正。基因组注释是一个复杂、繁琐的过程,需要大量的生物学知识。详尽、准确的注释需要经过严格的生物学实验才能获得。本系统对测试序列的注释结果仍有许多未知功能基因,需不断扩充新数据而逐步更新。MGAP 的新版本将增加交互式用户注释模块,进一步扩充和增强该系统注释功能。

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
推荐阅读
 
 
 
>>返回首頁<<
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有