在Linux系统里,当前正在运行的程序实例称
为进程。比如,当你启动Apache的时候,系统会为它分配一个进程ID。然后就可以用
这个ID监视和控制这个程序。
进程监视和控制是任何Linux系统管理员的核心任务。一个管理员可以终止("kill"
)、重启一个进程,甚至可以为它指定一个不同的优先级。标准的Linux命令"ps"和
"top"通常用于查看当前的进程列表。下面我来说明如何用这些命令和其它命令来管
理Linux系统中的进程。
用ps监视进程
一个监视Linux的标准工具就是"ps",它是进程状态的简称。这个命令返回正在运行
的程序的信息。这些信息可能包括程序是在哪个用户名下运行的,使用了多少CPU以
及运行了多长时间。如果你要手工终止程序或者确定是哪个程序让系统变慢时,这些
信息是很有用的。
如果你只是键入了"ps"这个命令,那么只能列出运行在当前终端下的进程。下面的例
子是通过远程shell运行"ps"输出的结果:
$ ps
PID TTY TIME CMD
4684 pts/14 00:00:00 bash
27107 pts/14 00:00:00 ps
从输出可以看出,分配给这个用户/终端的进程只有Bash shell和ps命令本身。你还
可以看到为每个进程列出的PID(进程ID)和TTY、TIME和CMD。TTY指明这个进程正在
运行在哪个终端上,TIME指明了这个进程已经使用了多少CPU时间,CMD则是启动这个
进程的命令名称。
用户可以看到,标准的ps命令只能列出基本的信息。要想获得Linux系统上运行的进
程的详细信息,你必须加入一些命令行参数。
加入ps常用的aux参数后可以显示其他用户启动的进程(a)、查看系统中属于自己的
进程(x)以及启动这个进程的用户和它启动的时间(u)。
表A示例了ps aux命令的输出。
现在还有其它更多的信息,增加了USER、 %CPU、%MEM、 VSZ、RSS、STAT和START这
几个域。现在我们来看一下这些信息是什么含义。
首先,用户可以看到所有的进程,而不仅仅是运行在终端上的那些。USER域指明了是
哪个用户启动了这个命令。很多进程和系统一起启动,而且会把根或者一些系统帐号
列为USER。当然,其它一些进程是单独运行的。这个信息本身就可以帮助你缩小问题
范围。假如某个用户启动了脚本,占用了服务器大量的I/O。如果能马上找到是谁在
运行这个程序,那么就可以大大加快解决问题的速度。
%CPU、 %MEM、VSZ和RSS这几个域都与系统资源有关。首先,用户可以查看某个进程
占用了多少CPU。这个信息是实时显示的,所以很难用ps捕捉峰值。可能用户会发现
,为了找到引发问题的那个进程需要不停地运行ps命令。
除了CPU使用情况,还可以看到内存使用及其VSZ(虚拟内存大小)和RSS(常驻集大
小)。VSZ表示如果一个程序完全驻留在内存的话需要占用多少内存空间,而RSS指明
了当前实际占用了多少内存。如果能够了解一个进程当前占用了多少内存,那么就可
以确定这个进程是在正常运行还是出现了异常。程序通常都会消耗比正常情况更多的
内存和CPU。虽然程序员都在尽力确保代码正确地使用资源,但是有时候还是要由管
理员来决定终止还是重启进程。
用户可能会注意到在ps aux命令的输出结果里,大部分TTY域有个"?"。这是因为这
些程序或者在系统启动的时候就开始运行了,或者是由初始化脚本(init script)
启动的。这些进程没有控制终端,所以作了标记。另外,linux-sanity-check命令有
一个TTY的值为pts/14。这个命令是远程连接运行的,有与其关联的一个终端。当你
的机器开放了多条连接,而你又想确定某个命令运行在哪个窗口的时候,这个信息是
很有用的。
STAT显示了进程当前的状态。在我们的例子里,很多进程处在睡眠状态,STAT域里的
"S"指明了这一状态。这仅仅表明这些进程在等待某些事件发生--可能是用户输入或
者系统资源的可用性。linux-sanity-check命令则有一个R状态,这个状态表明进程
当前正在运行。有时候你可以浏览一下这个列表然后找那些R状态的进程。如果大部
分进程处在睡眠状态而又有问题发生,那么只关注那些正在运行的进程是最好的方法
。那种状态不一定能说明发生了问题,但是有时候如果进程运行的时间过长可能意味
着发生了某些深层次的问题。
用top监视进程
另外一个有用的程序就是top。这个程序和ps类似,但是通常会全屏显示,而且会随
着进程状态的变化不断更新。对于那些经常引发问题,而用ps又难以查看的程序而言
,这个命令是很有用的。整个系统的信息也会显示,这就为着手查找问题提供了便利
。系统总共有多少CPU和内存资源以及负载平衡等信息本身就是很有用的,再加上程
序列表以及程序当前的状态和各自的统计信息,你现在可以理解为什么top这么常用
了。
不要忘了pstree
最后,另外一个可以快速简单查看进程的命令是pstree。这个命令会列出当前的进程
以及它们的树结构。一个进程启动的时候可能会产生自己的一个子进程。运行pstree
命令就可以很容易地看到这些信息。
$ pstree -cp 125
httpd(125)-+-httpd(126)
|-httpd(127)
| -httpd(129)
`-httpd(130)
Httpd是个很好的例子,因为它会经常产生子进程。在上例中你可以看到PID为125的
树。如果你想终止httpd但是又不想结束所有单个的子进程,那么找父进程。pstree
命令可以列出所有单个进程对应的树或者系统中的所有进程。它不仅可以帮助你找到
发生异常的进程,还可以作为一个学习工具。用户可以通过执行这些命令学到Linux
的很多东西,还可以参考相关的帮助页。
管理进程
如果你学会了用ps和top这些命令监视进程,你还应该知道怎么管理进程。你可以用
kill、killall和renice这些命令实现进程管理。
"kill"命令向正在运行的进程发送信号。最常见的应用就是用它来停止程序的执行。
你首先要获得运行进程的PID(比如可以用ps aux命令),然后可以用如下命令终止
进程:
$ kill 125
$ kill -9 125
通常情况下这个命令可以终止进程125。需要强调的是你要么是这个进程的属主,要
么是根用户,否则不能终止这个进程。有时候单纯用一个kill命令并不能终止进程,
你还需要以下操作:
如果进程挂起而且没有正常回应,那么可以用"-9"标志来结束这个进程,上例指明了
这个过程。通常的kill命令是发送一个sigterm信号,而-9发送的是sigkill信号,这
个信号强迫程序终止。其它一些信号可以用于终止或者启动进程。你可以运行"kill
-l"命令,然后就可以看到这些内容。
Killall命令与kill命令很相似,但是接收不同的参数。你可以向它传送一个程序名
而不是PID。以这个程序名运行的所有进程都会被终止。只要你是程序的属主或者是
根用户那么就可以终止这个程序。所以运行killall tcpdump命令会终止所有tcpdump
程序的实例。如果有很多进程以同样的名字运行,这一点是很有用的。
一定要注意你在终止什么进程,特别在你是根用户的时候。终止了不适当的进程可能
终止你的会话甚至让整个系统都停止运行。你应该熟悉那些标准的运行进程以及它们
的资源使用情况。如果想防止系统问题发生,最好设置一个基线。
还记不记得我先前提到可以改变进程的优先级?你可以用renice命令实现。改变优先
级可以通知系统给某个进程更多或者更少的CPU时间。进程优先级("niceness")的
范围从-20到20,-20是最高的优先级。所以如果想要减小httpd进程125的优先级,你
可以运行下面的命令:
$ renice +20 125
你可以通过改变优先级来节省系统资源。系统可以自动改变优先级,每当这种情况发
生的时候,很可能意味着一个程序占用了比正常情况下更多的资源。
加速问题解决过程
能够监视和控制Linux系统中的进程是很必要的。ps、top、kill和renice这些程序可
以让你看到进程的运行情况并且对它进行控制。你对每个进程了解得越多,就能够越
容易地精确定位进程的问题所在。系统通常会因为某种原因遇到各种问题,比如速度
变慢或者不稳定,而使用这些工具可以帮助你提高找到问题所在的能力。