第一章 Atlas的安装与调试
3.1 程序的获得
Atlas是一个用于大型基因序列拼接的程序,可以用于全基因shotgun序列拼接(WGS),也可以用于BAC和WGS混合read的拼接。使用这个系统已经成功完成老鼠,蜜蜂,海胆,牛等的基因的拼接。
要获得Atlas,首先要登陆网站http://www.hgsc.bcm.tmc.edu/downloads/software/atlas/;
点击下载页面,你将需要填写一个注册信息表来获得License,如图3.1:
填写完毕以后,需要在一份提交一份保证的协议,如图3.2
主要的意思是要你保证不能把这个软件用于盈利为目的的项目。点击接受后,它会把一个链接发到你注册时填写的e-mail里面。点击链接就直接到了下载页面进行下载。下载的版本用很多,本论文中使用的是atlas2005-linux.
3.2 解压缩
下载得到的是一个atlas2005-linux.tgz压缩包。对它进行解压缩,可以得到如下文件和文件夹:
documents/
documents/readme.html
documents/graphics/atlaslogo.gif
bin/
bin/atlas-overlapper
bin/atlas-splitbadcontigs
bin/atlas-screen-window
bin/atlas-binner
bin/atlas-trimPhraptails
bin/atlas-linearsequence
bin/atlas-count-kmers
bin/atlas-extractbins
local/
perl/
perl/bin/
perl/bin/atlas-asm-wgs
perl/bin/atlas-build-scaffold-file
perl/bin/atlas-createindex
perl/bin/atlas-divide-fafile
perl/bin/atlas-prep-reads
perl/bin/atlas-screen-trim-file
perl/bin/atlas-separate-bin-assemble
perl/lib/
perl/lib/Atlas/
perl/lib/Atlas/AsmWgs.pm
perl/lib/Atlas/PrepReads.pm
perl/lib/Atlas/Scaffold.pm
perl/lib/Atlas/ScaffoldHeapEle.pm
perl/lib/Atlas/Utility/
perl/lib/Atlas/Utility/ObjectAttribute.pm
perl/lib/Atlas/Project/
perl/lib/Atlas/Project/Trace.pm
perl/lib/Atlas/Project/Contig.pm
data/
data/univec/
data/univec/README.uv
data/univec/univec.fa
data/demo/
data/demo/demo.001.fa
data/demo/demo.001.fa.qual
3.3 环境变量的设置
这个程序是由perl语言写的,所以首先要检查系统中perl的情况。检查你perl解释程序是不是在默认的/usr/bin/perl目录下面。如果不是,就必须修改所有perl程序的第一行(#!/usr/bin/perl),改为perl解释程序的目录。
在程序中,用到了环境变量ATLAS_ROOT,在安装的时候要设置为你的安装目录。
在bash sell中,使用命令:export ATLAS_ROOT=xxxx;或者用vi打开.bashrc文件,把
export ATLAS_ROOT=xxxx加到文件中。(xxxx是程序的安装目录。)
在C sell中,使用命令setenv ATLAS_ROOT xxxx. (xxxx是程序的安装目录。)
3.4 PM模块的安装
在程序的运行的scafflod的过程中,需要用到一个非标准的perl库的模块。Heap.pm和
Heap::Fibonacci.pm.这两个模块要从CPAN(Comprehensive Perl Archive Network)网站上下载,http://www.cpan.org/。下载得到一个Heap压缩包,Heap-0.71.tar.gz。
下载以后就开始安装了。首先解压,使用命令gzip –d Heap-0.71.tar.gz,解压后得到Heap-0.71.tar。然后打开压缩包,使用命令tar –xof Heap-0.71.tar,得到一个文件夹。把当前目录改为解压目录,在终端中运行先后运行命令:
perl Makefile.PL
make
make test
最后安装,使用命令:
make install
3.5 Phrap和cross_match的安装
Phrap和cross_match是Phil Green编写的拼接程序包的一部分,是用于shotgun测序方法的序列拼接和序列比对的程序。在大型的生物测序中是一种常用的主流DNA序列拼接和比对程序。
这两个程序的获得是免费的。不过要按照一定的程序来申请。首先,你需要登陆到Phrap的主页,http://www.Phrap.org ,看清楚它的一个要求和你需要的版本;其次,你需要写邮件给程序的作者Phil Green phg@u.washington.edu,在邮件中,你需要在邮件中写下以下内容:
a) Your name.
b) An acknowledgement that you and the members of your group agree to these conditions.
c) Which programs you want (Phrap,cross_match, and swat are distributed together). You must cc the message to each appropriate individual (Brent Ewing, David Gordon, and/or Phil Green) at the email addresses below so that they will know to send you the appropriate program.
d) Your institution/department.
e) Your email address for all future correspondence. Ideally this should be a Unix computer running a generic mail program, since several of the programs are sent as uuencoded files which may be corrupted by some mail programs. If this address is not at the institution & department listed in d),please explain the discrepancy.
f) (Consed requestors only) Which platform(s) you want Consed for: solaris 2.5.1, solaris 2.6, solaris 2.7 (solaris 7), solaris 8,solaris 9, digital unix 4.0 (or better), hp-ux 11.x, sgi irix 6.2, 6.3, 6.4, or 6.5, linux(Redhat 7.1-1 or better), ibm aix 5.1 (or better), macosx 10.2 (Darwin
kernel 6.0) (or better), or
solaris-intel (2.8 or better). Note: Consed is not available for PC's running Windows, XP, NT
, or 2000.
g) (Consed requestors only) The ip address of the computer on which you will be running a web browser to download consed. This does not have to be the same computer as the one on which you will run consed.
If you are not sure of this ip address, please view page。
特别要提醒的是,在给作者发e-mail的时候最好使用.edu或者.org域名的邮箱。不然他会要你解释为什么不是非盈利组织的邮件,十分麻烦。我都是费了很大的劲才解释我的邮箱为什么是.com,才获得了程序。
把程序复制到任意目录下,然后解压缩,得到一个很多文件。把当前目录改到解压目录,然后在终端中运行makefile;编译程序。
$make
编译得到可执行文件Phrap和cross_match.把它们复制到atlas程序目录local下。(注意是把执行文件复制到local目录,而不是Atlas readme所说的创建一个符号链接)。
3.6 运行与调试
3.6.1 运行
程序的运行分为两个阶段,数据准备阶段和数据拼接阶段。
数据运行时候,先要创建数据目录<read_dirs>,在<read_dirs>下创建目录original,把拼接的基因片段数据文件和品质文件复制到original目录下。然后把当前目录改到/ATLAS_ROOT/perl/bin下,运行数据准备的程序atlas-prep-reads
$./atlas-prep-reads –r <reads_dir>
运行后得到原始数据文件的两个索引文件(由atlas-createindex创建),32 mer程序创建了/<reads_dir>/screened/kmer目录,并保存了分析的结果。kill-file也保存在/<reads_dir>/screened目录下。
数据准备好了后,就可以开始拼接了。还是在目录/ATLAS_ROOT/perl/bin下,运行atlas-asm-wgs程序:
$./atlas-asm-wgs –r <reads_dir> -a <asm_dir>
在<asm_dir>目录下得到运行的结果。
atlas.graph—— atlas-overlapper的结果。
atlas.fon——atlas-binner的结果。
atlas.ace ,atlas.contigs, atlas.contigs.qual——contig的拼接结果。
atlas.scaffold——scaffolding的结果。
atlas.linear.fa, atlas.linear.fa.qual, atlas.linear.fa.scaffold——使scaffold线性化的文件。
3.6.2 调试
程序安装完成以后,运行起来会遇到一定的问题。首先是对安装的机器非常挑剔,虽然只是要求linux操作系统,但是很多机器是无法运行的,需要耐心的尝试。
其次,程序的运行的命令有一定的问题。例如,在完成拼接的时候,程序的帮助文档中的命令是
atlas-asm-wgs –r <reads_dir> -d <asm_dir>
可是运行时会报错,提示d不是一个正确的操作符。我反复看了原程序后,终于发现应该是
atlas-asm-wgs –r <reads_dir> -a <asm_dir>
并且我还写了邮件给整个程序作者之一的Paul Havlak <havlak@bcm.tmc.edu>,经过他证实我的想法是正确的,并且接下来的程序说明文档中已经改了过来。
然后,对于Phrap和cross_match的安装也要注意,如果按照帮助文档中所说,使用命令:
cd local
ln -s <full_path_of_Phrap> Phrap
ln -s <full_path_of_cross_match> cross_match
这样的结果是在进行片段调整的时候,报错说cross_match不是一个可执行文件。只有把编译好了的Phrap和cross_match复制到local目录下,程序才能正常的运行。
最后。对于perl模块的下载和安装也要值得注意。下载的时候一定要下载一个完整的Heap.pm的数据包,里面包括原程序,makefile,和一些测试文件,不要只是把源代码复制下来。在安装的时候,按照3.4中的步骤进行。完成后还需要把解压后的Heap和Heap::Fibonacci复制到程序的相关目录:
perl/lib/Heap.pm,
perl/lib/Heap/Fibonacci.pm.
填写完毕以后,需要在一份提交一份保证的协议,如图3.2
主要的意思是要你保证不能把这个软件用于盈利为目的的项目。点击接受后,它会把一个链接发到你注册时填写的e-mail里面。点击链接就直接到了下载页面进行下载。下载的版本用很多,本论文中使用的是atlas2005-linux.
3.2 解压缩
下载得到的是一个atlas2005-linux.tgz压缩包。对它进行解压缩,可以得到如下文件和文件夹:
documents/
documents/readme.html
documents/graphics/atlaslogo.gif
bin/
bin/atlas-overlapper
bin/atlas-splitbadcontigs
bin/atlas-screen-window
bin/atlas-binner
bin/atlas-trimPhraptails
bin/atlas-linearsequence
bin/atlas-count-kmers
bin/atlas-extractbins
local/
perl/
perl/bin/
perl/bin/atlas-asm-wgs
perl/bin/atlas-build-scaffold-file
perl/bin/atlas-createindex
perl/bin/atlas-divide-fafile
perl/bin/atlas-prep-reads
perl/bin/atlas-screen-trim-file
perl/bin/atlas-separate-bin-assemble
perl/lib/
perl/lib/Atlas/
perl/lib/Atlas/AsmWgs.pm
perl/lib/Atlas/PrepReads.pm
perl/lib/Atlas/Scaffold.pm
perl/lib/Atlas/ScaffoldHeapEle.pm
perl/lib/Atlas/Utility/
perl/lib/Atlas/Utility/ObjectAttribute.pm
perl/lib/Atlas/Project/
perl/lib/Atlas/Project/Trace.pm
perl/lib/Atlas/Project/Contig.pm
data/
data/univec/
data/univec/README.uv
data/univec/univec.fa
data/demo/
data/demo/demo.001.fa
data/demo/demo.001.fa.qual
3.3 环境变量的设置
这个程序是由perl语言写的,所以首先要检查系统中perl的情况。检查你perl解释程序是不是在默认的/usr/bin/perl目录下面。如果不是,就必须修改所有perl程序的第一行(#!/usr/bin/perl),改为perl解释程序的目录。
在程序中,用到了环境变量ATLAS_ROOT,在安装的时候要设置为你的安装目录。
在bash sell中,使用命令:export ATLAS_ROOT=xxxx;或者用vi打开.bashrc文件,把
export ATLAS_ROOT=xxxx加到文件中。(xxxx是程序的安装目录。)
在C sell中,使用命令setenv ATLAS_ROOT xxxx. (xxxx是程序的安装目录。)
3.4 PM模块的安装
在程序的运行的scafflod的过程中,需要用到一个非标准的perl库的模块。Heap.pm和
Heap::Fibonacci.pm.这两个模块要从CPAN(Comprehensive Perl Archive Network)网站上下载,http://www.cpan.org/。下载得到一个Heap压缩包,Heap-0.71.tar.gz。
下载以后就开始安装了。首先解压,使用命令gzip –d Heap-0.71.tar.gz,解压后得到Heap-0.71.tar。然后打开压缩包,使用命令tar –xof Heap-0.71.tar,得到一个文件夹。把当前目录改为解压目录,在终端中运行先后运行命令:
perl Makefile.PL
make
make test
最后安装,使用命令:
make install
3.5 Phrap和cross_match的安装
Phrap和cross_match是Phil Green编写的拼接程序包的一部分,是用于shotgun测序方法的序列拼接和序列比对的程序。在大型的生物测序中是一种常用的主流DNA序列拼接和比对程序。
这两个程序的获得是免费的。不过要按照一定的程序来申请。首先,你需要登陆到Phrap的主页,http://www.Phrap.org ,看清楚它的一个要求和你需要的版本;其次,你需要写邮件给程序的作者Phil Green phg@u.washington.edu,在邮件中,你需要在邮件中写下以下内容:
a) Your name.
b) An acknowledgement that you and the members of your group agree to these conditions.
c) Which programs you want (Phrap,cross_match, and swat are distributed together). You must cc the message to each appropriate individual (Brent Ewing, David Gordon, and/or Phil Green) at the email addresses below so that they will know to send you the appropriate program.
d) Your institution/department.
e) Your email address for all future correspondence. Ideally this should be a Unix computer running a generic mail program, since several of the programs are sent as uuencoded files which may be corrupted by some mail programs. If this address is not at the institution & department listed in d),please explain the discrepancy.
f) (Consed requestors only) Which platform(s) you want Consed for: solaris 2.5.1, solaris 2.6, solaris 2.7 (solaris 7), solaris 8,solaris 9, digital unix 4.0 (or better), hp-ux 11.x, sgi irix 6.2, 6.3, 6.4, or 6.5, linux(Redhat 7.1-1 or better), ibm aix 5.1 (or better), macosx 10.2 (Darwin
kernel 6.0) (or better), or
solaris-intel (2.8 or better). Note: Consed is not available for PC's running Windows, XP, NT
, or 2000.
g) (Consed requestors only) The ip address of the computer on which you will be running a web browser to download consed. This does not have to be the same computer as the one on which you will run consed.
If you are not sure of this ip address, please view page。
特别要提醒的是,在给作者发e-mail的时候最好使用.edu或者.org域名的邮箱。不然他会要你解释为什么不是非盈利组织的邮件,十分麻烦。我都是费了很大的劲才解释我的邮箱为什么是.com,才获得了程序。
把程序复制到任意目录下,然后解压缩,得到一个很多文件。把当前目录改到解压目录,然后在终端中运行makefile;编译程序。
$make
编译得到可执行文件Phrap和cross_match.把它们复制到atlas程序目录local下。(注意是把执行文件复制到local目录,而不是Atlas readme所说的创建一个符号链接)。
3.6 运行与调试
3.6.1 运行
程序的运行分为两个阶段,数据准备阶段和数据拼接阶段。
数据运行时候,先要创建数据目录<read_dirs>,在<read_dirs>下创建目录original,把拼接的基因片段数据文件和品质文件复制到original目录下。然后把当前目录改到/ATLAS_ROOT/perl/bin下,运行数据准备的程序atlas-prep-reads
$./atlas-prep-reads –r <reads_dir>
运行后得到原始数据文件的两个索引文件(由atlas-createindex创建),32 mer程序创建了/<reads_dir>/screened/kmer目录,并保存了分析的结果。kill-file也保存在/<reads_dir>/screened目录下。
数据准备好了后,就可以开始拼接了。还是在目录/ATLAS_ROOT/perl/bin下,运行atlas-asm-wgs程序:
$./atlas-asm-wgs –r <reads_dir> -a <asm_dir>
在<asm_dir>目录下得到运行的结果。
atlas.graph—— atlas-overlapper的结果。
atlas.fon——atlas-binner的结果。
atlas.ace ,atlas.contigs, atlas.contigs.qual——contig的拼接结果。
atlas.scaffold——scaffolding的结果。
atlas.linear.fa, atlas.linear.fa.qual, atlas.linear.fa.scaffold——使scaffold线性化的文件。
3.6.2 调试
程序安装完成以后,运行起来会遇到一定的问题。首先是对安装的机器非常挑剔,虽然只是要求linux操作系统,但是很多机器是无法运行的,需要耐心的尝试。
其次,程序的运行的命令有一定的问题。例如,在完成拼接的时候,程序的帮助文档中的命令是
atlas-asm-wgs –r <reads_dir> -d <asm_dir>
可是运行时会报错,提示d不是一个正确的操作符。我反复看了原程序后,终于发现应该是
atlas-asm-wgs –r <reads_dir> -a <asm_dir>
并且我还写了邮件给整个程序作者之一的Paul Havlak <havlak@bcm.tmc.edu>,经过他证实我的想法是正确的,并且接下来的程序说明文档中已经改了过来。
然后,对于Phrap和cross_match的安装也要注意,如果按照帮助文档中所说,使用命令:
cd local
ln -s <full_path_of_Phrap> Phrap
ln -s <full_path_of_cross_match> cross_match
这样的结果是在进行片段调整的时候,报错说cross_match不是一个可执行文件。只有把编译好了的Phrap和cross_match复制到local目录下,程序才能正常的运行。
最后。对于perl模块的下载和安装也要值得注意。下载的时候一定要下载一个完整的Heap.pm的数据包,里面包括原程序,makefile,和一些测试文件,不要只是把源代码复制下来。在安装的时候,按照3.4中的步骤进行。完成后还需要把解压后的Heap和Heap::Fibonacci复制到程序的相关目录:
perl/lib/Heap.pm,
perl/lib/Heap/Fibonacci.pm.