作者: TechRepublic.com
Thursday, February 13 2003 3:34 PM 在Linux系统里,当前正在运行的程序实例称为进程。比如,当你启动Apache的时候,系统会为它分配一个进程ID。然后就可以用这个ID监视和控制这个程序。
进程监视和控制是任何Linux系统管理员的核心任务。一个管理员可以终止("kill")、重启一个进程,甚至可以为它指定一个不同的优先级。标准的Linux命令"ps"和"top"通常用于查看当前的进程列表。下面我来说明如何用这些命令和其它命令来管理Linux系统中的进程。
用ps监视进程
一个监视Linux的标准工具就是"ps",它是进程状态的简称。这个命令返回正在运行的程序的信息。这些信息可能包括程序是在哪个用户名下运行的,使用了多少CPU以及运行了多长时间。如果你要手工终止程序或者确定是哪个程序让系统变慢时,这些信息是很有用的。
如果你只是键入了"ps"这个命令,那么只能列出运行在当前终端下的进程。下面的例子是通过远程shell运行"ps"输出的结果:
$ ps
PID TTY TIME CMD
4684 pts/14 00:00:00 bash
27107 pts/14 00:00:00 ps
从输出可以看出,分配给这个用户/终端的进程只有Bash shell和ps命令本身。你还可以看到为每个进程列出的PID(进程ID)和TTY、TIME和CMD。TTY指明这个进程正在运行在哪个终端上,TIME指明了这个进程已经使用了多少CPU时间,CMD则是启动这个进程的命令名称。
用户可以看到,标准的ps命令只能列出基本的信息。要想获得Linux系统上运行的进程的详细信息,你必须加入一些命令行参数。
加入ps常用的aux参数后可以显示其他用户启动的进程(a)、查看系统中属于自己的进程(x)以及启动这个进程的用户和它启动的时间(u)。
表A示例了ps aux命令的输出。
现在还有其它更多的信息,增加了USER、 %CPU、%MEM、 VSZ、RSS、STAT和START这几个域。现在我们来看一下这些信息是什么含义。
首先,用户可以看到所有的进程,而不仅仅是运行在终端上的那些。USER域指明了是哪个用户启动了这个命令。很多进程和系统一起启动,而且会把根或者一些系统帐号列为USER。当然,其它一些进程是单独运行的。这个信息本身就可以帮助你缩小问题范围。假如某个用户启动了脚本,占用了服务器大量的I/O。如果能马上找到是谁在运行这个程序,那么就可以大大加快解决问题的速度。
%CPU、 %MEM、VSZ和RSS这几个域都与系统资源有关。首先,用户可以查看某个进程占用了多少CPU。这个信息是实时显示的,所以很难用ps捕捉峰值。可能用户会发现,为了找到引发问题的那个进程需要不停地运行ps命令。
除了CPU使用情况,还可以看到内存使用及其VSZ(虚拟内存大小)和RSS(常驻集大小)。VSZ表示如果一个程序完全驻留在内存的话需要占用多少内存空间,而RSS指明了当前实际占用了多少内存。如果能够了解一个进程当前占用了多少内存,那么就可以确定这个进程是在正常运行还是出现了异常。程序通常都会消耗比正常情况更多的内存和CPU。虽然程序员都在尽力确保代码正确地使用资源,但是有时候还是要由管理员来决定终止还是重启进程。
用户可能会注意到在ps aux命令的输出结果里,大部分TTY域有个"?"。这是因为这些程序或者在系统启动的时候就开始运行了,或者是由初始化脚本(init script)启动的。这些进程没有控制终端,所以作了标记。另外,linux-sanity-check命令有一个TTY的值为pts/14。这个命令是远程连接运行的,有与其关联的一个终端。当你的机器开放了多条连接,而你又想确定某个命令运行在哪个窗口的时候,这个信息是很有用的。
STAT显示了进程当前的状态。在我们的例子里,很多进程处在睡眠状态,STAT域里的"S"指明了这一状态。这仅仅表明这些进程在等待某些事件发生--可能是用户输入或者系统资源的可用性。linux-sanity-check命令则有一个R状态,这个状态表明进程当前正在运行。有时候你可以浏览一下这个列表然后找那些R状态的进程。如果大部分进程处在睡眠状态而又有问题发生,那么只关注那些正在运行的进程是最好的方法。那种状态不一定能说明发生了问题,但是有时候如果进程运行的时间过长可能意味着发生了某些深层次的问题。
用top监视进程
另外一个有用的程序就是top。这个程序和ps类似,但是通常会全屏显示,而且会随着进程状态的变化不断更新。对于那些经常引发问题,而用ps又难以查看的程序而言,这个命令是很有用的。整个系统的信息也会显示,这就为着手查找问题提供了便利。系统总共有多少CPU和内存资源以及负载平衡等信息本身就是很有用的,再加上程序列表以及程序当前的状态和各自的统计信息,你现在可以理解为什么top这么常用了。
不要忘了pstree
最后,另外一个可以快速简单查看进程的命令是pstree。这个命令会列出当前的进程以及它们的树结构。一个进程启动的时候可能会产生自己的一个子进程。运行pstree命令就可以很容易地看到这些信息。
$ pstree -cp 125
httpd(125)-+-httpd(126)
|-httpd(127)
| -httpd(129)
`-httpd(130)
Httpd是个很好的例子,因为它会经常产生子进程。在上例中你可以看到PID为125的树。如果你想终止httpd但是又不想结束所有单个的子进程,那么找父进程。pstree命令可以列出所有单个进程对应的树或者系统中的所有进程。它不仅可以帮助你找到发生异常的进程,还可以作为一个学习工具。用户可以通过执行这些命令学到Linux的很多东西,还可以参考相关的帮助页。
管理进程
如果你学会了用ps和top这些命令监视进程,你还应该知道怎么管理进程。你可以用kill、killall和renice这些命令实现进程管理。
"kill"命令向正在运行的进程发送信号。最常见的应用就是用它来停止程序的执行。你首先要获得运行进程的PID(比如可以用ps aux命令),然后可以用如下命令终止进程:
$ kill 125
$ kill -9 125
通常情况下这个命令可以终止进程125。需要强调的是你要么是这个进程的属主,要么是根用户,否则不能终止这个进程。有时候单纯用一个kill命令并不能终止进程,你还需要以下操作:
如果进程挂起而且没有正常回应,那么可以用"-9"标志来结束这个进程,上例指明了这个过程。通常的kill命令是发送一个sigterm信号,而-9发送的是sigkill信号,这个信号强迫程序终止。其它一些信号可以用于终止或者启动进程。你可以运行"kill -l"命令,然后就可以看到这些内容。
Killall命令与kill命令很相似,但是接收不同的参数。你可以向它传送一个程序名而不是PID。以这个程序名运行的所有进程都会被终止。只要你是程序的属主或者是根用户那么就可以终止这个程序。所以运行killall tcpdump命令会终止所有tcpdump程序的实例。如果有很多进程以同样的名字运行,这一点是很有用的。
一定要注意你在终止什么进程,特别在你是根用户的时候。终止了不适当的进程可能终止你的会话甚至让整个系统都停止运行。你应该熟悉那些标准的运行进程以及它们的资源使用情况。如果想防止系统问题发生,最好设置一个基线。
还记不记得我先前提到可以改变进程的优先级?你可以用renice命令实现。改变优先级可以通知系统给某个进程更多或者更少的CPU时间。进程优先级("niceness")的范围从-20到20,-20是最高的优先级。所以如果想要减小httpd进程125的优先级,你可以运行下面的命令:
$ renice +20 125
你可以通过改变优先级来节省系统资源。系统可以自动改变优先级,每当这种情况发生的时候,很可能意味着一个程序占用了比正常情况下更多的资源。
加速问题解决过程
能够监视和控制Linux系统中的进程是很必要的。ps、top、kill和renice这些程序可以让你看到进程的运行情况并且对它进行控制。你对每个进程了解得越多,就能够越容易地精确定位进程的问题所在。系统通常会因为某种原因遇到各种问题,比如速度变慢或者不稳定,而使用这些工具可以帮助你提高找到问题所在的能力。