fasta格式 - 王朝网络宽屏版

在生物信息学中，FASTA格式（又称为Pearson格式），是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码，且允许在序列前添加序列名及注释。

序列文件的第一行是由大于号">"或分号";"打头的任意文字说明（习惯常用">"作为起始），用于序列标记。从第二行开始为序列本身，只允许使用既定的核苷酸或氨基酸编码符号（参见下表）。通常核苷酸符号大小写均可，而氨基酸常用大写字母。使用时应注意有些程序对大小写有明确要求。文件每行的字母一般不应超过80个字符。

下面是FASTA格式的一条DNA序列实例：

>MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken ADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTID FPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREA DIDGDGQVNYEEFVQMMTAK*

FASTA格式支持的核苷酸代码如下：

核苷酸代码

意义

Adenosine

Cytosine

Guanine

Thymidine

Uracil

G A (puRine)

T C (pYrimidine)

G T (Ketone)

A C (aMino group)

G C (Strong interaction)

A T (Weak interaction)

G T C (not A) (B comes after A)

G A T (not C) (D comes after C)

A C T (not G) (H comes after G)

G C A (not T, not U) (V comes after U)

A G C T (aNy)

masked

gap of indeterminate length

FASTA格式支持的氨基酸代码如下：

氨基酸代码

意义

Alanine

Aspartic acid or Asparagine

Cysteine

Aspartic acid

Glutamic acid

Phenylalanine

Glycine

Histidine

Isoleucine

Lysine

Leucine

Methionine

Asparagine

Pyrrolysine

Proline

Glutamine

Arginine

Serine

Threonine

Selenocysteine

Valine

Tryptophan

Tyrosine

Glutamic acid or Glutamine

any

translation stop

gap of indeterminate length