在生物信息学中,FASTA格式(又称为Pearson格式),是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码,且允许在序列前添加序列名及注释。
序列文件的第一行是由大于号">"或分号";"打头的任意文字说明(习惯常用">"作为起始),用于序列标记。从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号(参见下表)。通常核苷酸符号大小写均可,而氨基酸常用大写字母。使用时应注意有些程序对大小写有明确要求。文件每行的字母一般不应超过80个字符。
下面是FASTA格式的一条DNA序列实例:
>MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken ADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTID FPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREA DIDGDGQVNYEEFVQMMTAK*
FASTA格式支持的核苷酸代码如下:
核苷酸代码
意义
A
Adenosine
C
Cytosine
G
Guanine
T
Thymidine
U
Uracil
R
G A (puRine)
Y
T C (pYrimidine)
K
G T (Ketone)
M
A C (aMino group)
S
G C (Strong interaction)
W
A T (Weak interaction)
B
G T C (not A) (B comes after A)
D
G A T (not C) (D comes after C)
H
A C T (not G) (H comes after G)
V
G C A (not T, not U) (V comes after U)
N
A G C T (aNy)
X
masked
-
gap of indeterminate length
FASTA格式支持的氨基酸代码如下:
氨基酸代码
意义
A
Alanine
B
Aspartic acid or Asparagine
C
Cysteine
D
Aspartic acid
E
Glutamic acid
F
Phenylalanine
G
Glycine
H
Histidine
I
Isoleucine
K
Lysine
L
Leucine
M
Methionine
N
Asparagine
O
Pyrrolysine
P
Proline
Q
Glutamine
R
Arginine
S
Serine
T
Threonine
U
Selenocysteine
V
Valine
W
Tryptophan
Y
Tyrosine
Z
Glutamic acid or Glutamine
X
any
*
translation stop
-
gap of indeterminate length