一谈到Apache,相信大多数系统管理员使用的还是其稳定版1.3――虽然2.0系列的开发版早已由Alpha,Beta发展到了现在的GA(General Availability )版,不过大家潜意识里还是认为开发中的版本并不是可用于生产环境的稳定版本,尤其是1.3的API与2.0的不兼容而使得大量的模块必须要重写才能在2.0上用。坦白地说,这种担心并不是多余的,Apache1.3和2.0之间的内部变化实在是太大了(这一开发已经历了5年)。用Apache创始人Brian Behlendorf自己的话来说:“这个版本包括了数百个新的特性,所以这个产品可能应该具有3.1或者8i这样的产品编号,而不是2.0!”。
在Apache2.0中加入了很多的核心改进和新功能,如Unix线程、多协议支持、新的构建系统、更好的支持非Unix平台、IPv6支持、新的Apache API、过滤器、多语言错误响应、原生的Windows NT Unicode支持、更简单化的配置、以及升级了的正则表达式库等,当然还包括对许多模块的重要改进,同时也加入了一些新的模块。如此多的变化,会使得大多数Apache管理员在刚接触2.0时会不知所措,笔者也不例外。
不过现在的情况有了很大变化,Apache开发团队做了很多工作使得从1.3升级到2.0更加平滑,同时很多重要的模块也已经很好地支持2.0了,如PHP、FastCGI、Mod_perl、Mod_python等。在httpd.conf的指令配置语法上,目前的2.0版本(笔者写作时是2.0.46)和1.3版本的兼容性已做得相当好了(比如早期的2.0版本如果要使用PHP的话,一般是用过滤器,不过现在的PHP官方文档中已经使用1.3中的LoadModule语句做为加载PHP的推荐方式)。只要略微了解一下2.0的新特性,从1.3升级到2.0就是一件非常容易的事情了。毕竟使用Apache2.0是大势所趋,而且笔者个人感觉,Apache的开发团队已经把开发重心转移到2.0上(1.3自2002年10月发布了1.3.27后,至今没有新版本推出,而2.0却在与1.3.27同时发布2.0.43后在2003年1月发布了2.0.44,3月末发布了2.0.45,5月末发布了2.0.46,并包含了很多改进和修正)。
尽管Apache2.0在许多方面有了不小的进步,但相信最吸引系统管理员的还是性能上的改善。毫不夸张地说,MPM(Multi-Processing Modules,多道处理模块)的引入是Apache2.0最重要的变化。大家知道,Apache是基于模块化的设计,而Apache 2.0更扩展了模块化设计到web服务器的最基本功能。服务器装载了一种多道处理模块,它负责绑定本机网络端口,接受请求并调度子进程来处理请求。扩展模块化设计到这个层次有两个重要好处:
1. Apache可以更简洁有效地支持多种操作系统;
2. 服务器可以按站点的特殊需要进行自定制。
在用户级, MPM看起来和其他Apache模块非常类似。主要区别是在任一时刻只能有一种MPM被装载到服务器中。
在支持POSIX线程的Unix系统上, Apache现在可以通过不同的MPM运行在一种多进程与多线程相混合的模式下,这就增强了许多(但不是所有)配置的可扩充性能。相比于Apache 1.3, 2.0版本作了大量的优化来提升处理能力和可伸缩性,并且大多数改进在默认状态下就可以生效。但是我不得不很遗憾的说在FreeBSD上基于线程的产品级MPM worker--还存在着很大的问题。这主要是因为FreeBSD自身的线程库还远远比不上Linux和Solaris成熟。
在我实际的工作中,Linux和Solaris上使用worker MPM都运行得不错,性能确实有提高,虽然在Linux(Redhat9)上出现过负载突然增大数倍时,Apache线程无法正常工作的情形,但发现主要原因还是配置参数过度优化,并加载了一些有冲突的模块,并不是Linux系统本身的问题。而Solaris 9 for SPARC是工作得最好的平台,可以完全按照笔者的配置工作,没有出现任何问题。
下面我以FreeBSD4.8为平台,说明在Apache2.0中如何指定MPM 。先解压缩源代码包httpd-2.0.46.tar.gz生成httpd-2.0.46目录,(BTW:Apache1.3源代码包的命名规则是apache_1.3.NN.tar.gz,而2.0则是httpd-2.0.NN.tar.gz――其中NN是次版本号)。
进入httpd-2.0.46录,运行:
./configure --help|grep mpm
会显示
--with-mpm=MPM Choose the process model for Apache to use.
MPM={beos|worker|prefork|mpmt_os2|perchild|leader|threadpool}
这里就是用来选择要使用的进程模型,也就是哪种MPM模块。beos,mpmt_os2分别是BeOS和OS/2上的缺省MPM,perchild的主要设计目的是以不同的用户和组的身份来运行不同的子进程,这在运行多个需要CGI的虚拟主机时特别有用,Apache官方文档说它会比1.3中的SuExec机制做的更好。leader和threadpool都是基于worker的变体,还处于实验性阶段,某些情况下并不会按照预期设想的那样工作,所以Apache官方也并不推荐使用。( 有关其他的MPM的详细说明,请参见Apache官方文档:http://httpd.apache.org/docs-2.0/mod/)。
如果不用--with-mpm显式指定某种MPM的话,那么prefork就是Unix平台上的缺省MPM.它所采用的方式是预派生子进程的方式,这事实上也就是Apache1.3中所采用的模式。它本身并没有使用到线程,2.0使用它是为了与1.3保持兼容性,另一方面,prefork用单独的子进程来处理不同的请求,进程之间是彼此独立的,这也使得它成为最稳定的MPM.对比prefork,worker是2.0 中全新的支持多线程和多进程混合模型的MPM。由于使用线程来处理请求,所以,可以处理相对海量的请求,而系统资源的开销小于基于进程的服务器。但是,它也使用了多进程,每个进程又生成多个线程,以获得基于进程的服务器的稳定性。笔者认为这种MPM的工作方式将是Apache 2.0以后的发展趋势。
若使用prefork,在make编译和make install安装后,使用httpd ?l来确定当前使用的MPM,应该会看到prefork.c(如果看到worker.c就说明使用的是worker MPM,依此类推)
注意:不象在Linux和Solaris,在FreeBSD上用正常方式--with-mpm=worker是无效的!!即使这么做在安装后也只能看到prefork.c即prefork模式!!如果你细心的话在configure过程中你会看到
Applying APR hints file rules for i386-unknown-freebsd4.8
setting enable_threads to "no"
APR will be non-threaded
The currently selected MPM requires threads which your system seems to lack
不过这并不说明一定不能在FreeBSD上使用线程,其实在configure时有个未公开的选项--enable-threads ,它在configure --help时是看不到的。显式加上它就可以以worker MPM来配置编译Apache2.0了,但是虽然编译没有问题,可是Apache起动后根本无法正常工作,浏览器会一直等待回应(在FreeBSD4.8,5.1上均不行),个人认为FreeBSD在高端还有很长的路要走,线程,PAE,SMP--虽然5.1有了不小的改进但仍然不是十分完善。
因此,对于FreeBSD来说,prefork几乎还是目前的唯一MPM,我在下面主要还是讨论它的工作原理和相关指令调整。
查看缺省生成的httpd.conf配置文件,会发现里面包含如下的配置段:
<IfModule prefork.c
StartServers 5
MinSpareServers 5
MaxSpareServers 10
MaxClients 150
MaxRequestsPerChild 0
</IfModule
prefork的工作原理是这样的:控制进程在最初建立StartServers个子进程后, 为了满足MinSpareServers设置的需要,创建一个进程,等待一秒钟,继续创建第二个,等待一秒钟,继而创建四个,如此按指数级增加创建的进程数,最多达到每秒32个,直到满足MinSpareServers设置的值为止,这也就是预派生(prefork)的由来。这种模式可以使得不必在请求到来时再产生新的进程,从而减小了系统开销以增加性能。
MaxSpareServers 设置了最大的空闲进程数,如果空闲进程数大于这个值,Apache会自动kill某些多余进程。这个值一般不要设的过大,但如果设的比MinSpareServers小,Apache会自动把它调整为MinSpareServers+1。如果站点负载较大的话,可考虑同时加大MinSpareServers和MaxSpareServers。
MaxRequestsPerChild设置的是每个子进程可以处理的请求数。每个子进程在处理了MaxRequestsPerChild个请求后将自动销毁。0意味着无限,即子进程永不销毁。虽然缺省设为0可以使每个子进程处理更多的请求,但如果设成非零值也有两点重要的好处:
1. 可防止意外的内存卸漏;
2. 在服务器负载下降的时侯会自动减少子进程数。
因此,可根据服务器的负载来调整这个值,如果非零的话,笔者认为10000左右是比较合适的。事实上这个值对Apache的性能影响不是很大。
MaxClients 是这些指令中最为重要的一个,它设定的就是Apache可以同时处理的请求,这是对Apache性能影响最大的参数.在我个人看来,缺省的150是远远不够的,如果请求总数已达到这个值(可通过ps ?ef|grep httpd|wc ?l来确认),那么下面的请求就要排队,直到某个已处理请求完毕。这就是为什么系统资源还剩下很多,而http访问却很慢的主要原因。系统管理员可以根据硬件配置和负载情况来动态调整这个值,虽然理论上这个值越大,可以处理的请求就越多,但Apache默认的限制是不能大于256。如果把这个值设为大于256那么Apache将无法起动。事实上,256对于负载稍重的站点也是很不够的。在Apache1.3中这是个硬限制,如果要加大这个值,必须在configure前手工修改源代码树下的src/include/httpd.h,查找256,会发现#define HARD_SERVER_LIMIT 256这行,把256改为你要增大的值如4000,然后重新编译Apache即可。我想这个方法稍有些经验的Apache系统管理员都知道,不过我相信在Apache2.0中知道如何加大这个值的人就不会太多了。
在Apache2.0中新加入了ServerLimit指令,使得无须重编译Apache就可以加大MaxClients。下面是笔者的prefork配置段