
PIR的产生PIR(Protein Information resource,蛋白质数据库)的出现先于核酸数据库。在1960年左右,Dayhoff和其同事们搜集了当时所有已知的氨基酸序列,编著了《蛋白质序列与结构图册》。从这本图册中的数据,演化为后来的蛋白质信息资源数据库。
PIR的概念PIR是一个集成了关于蛋白质功能预测数据的公共资源的数据库,其目的是支持基因组/蛋白质组研究。PIR与其他组织合作,共同构成了PIR-国际蛋白质序列数据库(PSD)——一个主要的已预测的蛋白质数据库,包括250,000个蛋白。
PIR的功能为了提高蛋白质预测和实验数据之间的相互吻合度,PIR建立了一套系统,允许研究者们递交、分类、提取文献信息。PIR提供了在超家族、域和模体水平上的对蛋白的分类。PIR同时提供了蛋白的结构和功能信息,并给出了与其他40个数据库之间的相互参考。PIR还提供了一个非冗余的蛋白质数据库,包括从PIR-PSD,SWISS-PROT,TrEMBL,GenPept,PDB收集来的约800,000条序列,对每条序列给出了一个符合的名称和相关文献。为了提高数据库的协同工作能力,PIR采用开发的数据库框架,利用XML技术进行数据发布。
除了蛋白质序列数据以外,PIR还包含以下信息:
(1)蛋白质名称、蛋白质的分类、蛋白质的来源;
(2)关于原始数据的参考文献;
(3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;
(4)序列中相关的位点、功能区域。
PIR提供三种类型的检索服务:
(1)基于文本的交互式查询,用户通过关键字进行数据查询。
(2)标准的序列相似性搜索,包括BLAST、FASTA等。
(3)结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。
PIR站点在PIR的站点上(http://pir.georgetown.edu/)也提供了常规的生物信息学工具,以进行数据发掘。