http://www.chinaunix.net 作者:peng
前言
前面几篇介绍了一个unix上安装了qmail,做完所有的配置工作,你可能以为工作就要告一段落了。不幸的是,工作刚刚开始。相对于安装和配置,真正让人反感的是管理和对错误地发现和解决。下面我们讲一下通过日志,来判断分析系统和qmail是否正常,来发现解决问题。在这里,我们分系统日志和qmail日志两部分来讲。讲一下系统日志,因为主机系统安全是一切服务的基础,也是qmail日志的前提。
6.1 系统日志
unix系统能够跟踪系统中发生的事件并将每一个事件的所有消息记录到系统的日志文件中。日志对于安全来说,非常重要,他记录了系统每天发生的各种各样的事情,你可以通过他来检查错误发生的原因,或者受到攻击时攻击者留下的痕迹。日志主要的功能有:审计和监测。他还可以实时的监测系统状态,监测和追踪侵入者等等。作为一个管理员,你应该每天至少扫描一遍日志,来监视系统或安全问题。在Linux系统中,有三个主要的日志子系统.
6.1.1连接时间日志
连接时间日志--由多个程序执行,把纪录写入到/var/log/wtmp和/var/run/utmp,login等程序更新wtmp和utmp文件,使系统管理员能够跟踪谁在何时登录到系统。wtmp和utmp文件都是二进制文件,他们不能被诸如tail命令剪贴或合并(使用cat命令)。用户需要使用who、w、users、last和ac来使用这两个文件包含的信息。
who:who命令查询utmp文件并报告当前登录的每个用户。Who的缺省输出包括用户名、终端类型、登录日期及远程主机。例如:who(回车)显示(表1)
chyang pts/0 Aug 18 15:06 (192.168.1.3)
ynguo pts/2 Aug 18 15:32 (192.168.1.3)
ynguo pts/3 Aug 18 13:55 (192.168.1.3)
lewis pts/4 Aug 18 13:35 (192.168.1.3)
ynguo pts/7 Aug 18 14:12 (192.168.1.3)
ylou pts/8 Aug 18 14:15 (192.168.1.3)
如果指明了wtmp文件名,则who命令查询所有以前的纪录。命令who /var/log/wtmp将报告自从wtmp文件创建或删改以来的每一次登录。
w:w命令查询utmp文件并显示当前系统中每个用户和它所运行的进程信息。例如:w(回车)显示(表2):3:36pm up 1
day, 22:34, 6 users, load average: 0.23, 0.29, 0.27
USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
chyang pts/0 202.38.68.242 3:06pm 2:04 0.08s 0.04s -bash
ynguo pts/2 202.38.79.47 3:32pm 0.00s 0.14s 0.05 w
lewis pts/3 202.38.64.233 1:55pm 30:39 0.27s 0.22s -bash
lewis pts/4 202.38.64.233 1:35pm 6.00s 4.03s 0.01s sh /home/users/
ynguo pts/7 simba.nic.ustc.e 2:12pm 0.00s 0.47s 0.24s telnet mail
ylou pts/8 202.38.64.235 2:15pm 1:09m 0.10s 0.04s -bash
users:users用单独的一行打印出当前登录的用户,每个显示的用户名对应一个登录会话。如果一个用户有不止一个登录会话,那他的用户名将显示相同的次数。例如:users(回车)显示:chyang lewis lewis ylou ynguo ynguo
last:last命令往回搜索wtmp来显示自从文件第一次创建以来登录过的用户。例如(表3):
chyang pts/9 202.38.68.242 Tue Aug 1 08:34 - 11:23 (02:49)
cfan pts/6 202.38.64.224 Tue Aug 1 08:33 - 08:48 (00:14)
chyang pts/4 202.38.68.242 Tue Aug 1 08:32 - 12:13 (03:40)
lewis pts/3 202.38.64.233 Tue Aug 1 08:06 - 11:09 (03:03)
lewis pts/2 202.38.64.233 Tue Aug 1 07:56 - 11:09 (03:12)
如果指明了用户,那么last只报告该用户的近期活动,例如:last ynguo(回车)显示(表4):
ynguo pts/4 simba.nic.ustc.e Fri Aug 4 16:50 - 08:20 (15:30)
ynguo pts/4 simba.nic.ustc.e Thu Aug 3 23:55 - 04:40 (04:44)
ynguo pts/11 simba.nic.ustc.e Thu Aug 3 20:45 - 22:02 (01:16)
ynguo pts/0 simba.nic.ustc.e Thu Aug 3 03:17 - 05:42 (02:25)
ynguo pts/0 simba.nic.ustc.e Wed Aug 2 01:04 - 03:16 1+02:12)
ynguo pts/0 simba.nic.ustc.e Wed Aug 2 00:43 - 00:54 (00:11)
ynguo pts/9 simba.nic.ustc.e Thu Aug 1 20:30 - 21:26 (00:55)
ac:ac命令根据当前的/var/log/wtmp文件中的登录进入和退出来报告用户连结的时间(小时),如果不使用标志,则报告总的时间。例如:ac(回车)显示:total 5177.47
ac -d(回车)显示每天的总的连结时间 (表5):
Aug 12 total 261.87
Aug 13 total 351.39
Aug 14 total 396.09
Aug 15 total 462.63
Aug 16 total 270.45
Aug 17 total 104.29
Today total 179.02
ac -p (回车)显示每个用户的总的连接时间 (表6):
ynguo 193.23
yucao 3.35
rong 133.40
hdai 10.52
zjzhu 52.87
zqzhou 13.14
liangliu 24.34
total 5178.24
lastlog:lastlog文件在每次有用户登录时被查询。可以使用lastlog命令来检查某特定用户上次登录的时间,并格式化输出上次登录日志/var/log/lastlog的内容。它根据UID排序显示登录名、端口号(tty)和上次登录时间。如果一个用户从未登录过,lastlog显示"**Never logged**。注意需要以root运行该命令,例如(表7):
rong 5 202.38.64.187 Fri Aug 18 15:57:01 +0800 2000
dbb **Never logged in**
xinchen **Never logged in**
pb9511 **Never logged in**
xchen 0 202.38.64.190 Sun Aug 13 10:01:22 +0800 2000
另外,可一加一些参数,例如,last -u 102将报告UID为102的用户;last -t 7表示限制上一周的报告。
6.1.2 进程统计日志
进程统计--由系统内核执行。当一个进程终止时,为每个进程往进程统计文件(pacct或acct)中写一个纪录。进程统计的目的是为系统中的基本服务提供命令使用统计。
UNIX可以跟踪每个用户运行的每条命令,如果想知道昨晚弄乱了哪些重要的文件,进程统计子系统可以告诉你。它对还跟踪一个侵入者有帮助。与连接时间日志不同,进程统计子系统缺省不激活,它必须启动。在Linux系统中启动进程统计使用accton命令,必须用root身份来运行。Accton命令的形式accton file,file必须先存在。先使用touch命令来创建pacct文件:
# touch /var/log/pacct
然后运行accton:
# accton /var/log/pact
一旦accton被激活,就可以使用lastcomm命令监测系统中任何时候执行的命令。若要关闭统计,可以使用不带任何参数的accton命令。
lastcomm命令报告以前执行的文件。不带参数时,lastcomm命令显示当前统计文件生命周期内纪录的所有命令的有关信息。包括命令名、用户、tty、命令花费的CPU时间和一个时间戳。如果系统有许多用户,输入则可能很长。下面的例子(表8):
------------------------------------------------------------------------------
crond F root ?? 0.00 secs Sun Aug 20 00:16
promisc_check.s S root ?? 0.04 secs Sun Aug 20 00:16
promisc_check root ?? 0.01 secs Sun Aug 20 00:16
grep root ?? 0.02 secs Sun Aug 20 00:16
tail root ?? 0.01 secs Sun Aug 20 00:16
sh root ?? 0.01 secs Sun Aug 20 00:15
ping S root ?? 0.01 secs Sun Aug 20 00:15
ping6.pl F root ?? 0.01 secs Sun Aug 20 00:15
sh root ?? 0.01 secs Sun Aug 20 00:15
ping S root ?? 0.02 secs Sun Aug 20 00:15
ping6.pl F root ?? 0.02 secs Sun Aug 20 00:15
sh root ?? 0.02 secs Sun Aug 20 00:15
ping S root ?? 0.00 secs Sun Aug 20 00:15
ping6.pl F root ?? 0.01 secs Sun Aug 20 00:15
sh root ?? 0.01 secs Sun Aug 20 00:15
ping S root ?? 0.01 secs Sun Aug 20 00:15
------------------------------------------------------------------------------
进程统计的一个问题是pacct文件可能增长的十分迅速。这时需要交互式的或经过cron机制运行sa命令来保持日志数据在系统控制内。sa命令报告、清理并维护进程统计文件。它能把/var/log/pacct中的信息压缩到摘要文件/var/log/savacct和/var/log/usracct中。这些摘要包含按命令名和用户名分类的系统统计数据。sa缺省情况下先读它们,然后读pacct文件,使报告能包含所有的可用信息。sa的输出有下面一些标记项(表9):
----------------------------------------------------------------------------
avio--每次执行的平均I/O操作次数
cp--用户和系统时间总和,以分钟计
cpu--和cp一样
k--内核使用的平均CPU时间,以1k为单位
k*sec--CPU存储完整性,以1k-core秒
re--实时时间,以分钟计
s--系统时间,以分钟计
tio--I/O操作的总数
u--用户时间,以分钟计
-------------------------------------------------------------------------------
例如(表10):
-------------------------------------------------------------------------------
842 173.26re 4.30cp 0avio 358k
2 10.98re 4.06cp 0avio 299k find
9 24.80re 0.05cp 0avio 291k ***other
105 30.44re 0.03cp 0avio 302k ping
104 30.55re 0.03cp 0avio 394k sh
162 0.11re 0.03cp 0avio 413k security.sh*
154 0.03re 0.02cp 0avio 273k ls
56 31.61re 0.02cp 0avio 823k ping6.pl*
2 3.23re 0.02cp 0avio 822k ping6.pl
35 0.02re 0.01cp 0avio 257k md5sum
97 0.02re 0.01cp 0avio 263k initlog
12 0.19re 0.01cp 0avio 399k promisc_check.s
15 0.09re 0.00cp 0avio 288k grep
11 0.08re 0.00cp 0avio 332k awk
------------------------------------------------------------------------------
用户还可以根据用户而不是命令来提供一个摘要报告。例如sa -m显示如下(表11):
885 173.28re 4.31cp 0avk
root 879 173.23re 4.31cp 0avk
alias 3 0.05re 0.00cp 0avk
qmailp 3 0.01re 0.00cp 0avk
6.1.3 错误日值
错误日志--由syslogd执行。各种系统守护进程、用户程序和内核通过syslog向文件/var/log/messages报告值得注意的事件。另外有许多UNIX程序创建日志。像HTTP和FTP这样提供网络服务的服务器也保持详细的日志。
Syslog已被许多日志函数采纳,它用在许多保护措施中--任何程序都可以通过syslog 纪录事件。Syslog可以纪录系统事件,可以写到一个文件或设备中,或给用户发送一个信息。它能纪录本地事件或通过网络纪录另一个主机上的事件。
Syslog设备依据两个重要的文件:/etc/syslogd(守护进程)和/etc/syslog.conf配置文件,习惯上,多数syslog信息被写到/var/adm或/var/log目录下的信息文件(messages.*)。一个典型的syslog纪录包括生成程序的名字和一个文本信息。它还包括一个设备和一个优先级范围(但不在日之中出现)。
每个syslog消息被赋予下面的主要设备之一(表12):
--------------------------------------------------------------------------
LOG_AUTH--认证系统:login、su、getty等
LOG_AUTHPRIV--同LOG_AUTH,但只登录到所选择的单个用户可读的文件中
LOG_CRON--cron守护进程
LOG_DAEMON--其他系统守护进程,如routed
LOG_FTP--文件传输协议:ftpd、tftpd
LOG_KERN--内核产生的消息
LOG_LPR--系统打印机缓冲池:lpr、lpd
LOG_MAIL--电子邮件系统
LOG_NEWS--网络新闻系统
LOG_SYSLOG--由syslogd(8)产生的内部消息
LOG_USER--随机用户进程产生的消息
LOG_UUCP--UUCP子系统
LOG_LOCAL0~LOG_LOCAL7--为本地使用保留
-------------------------------------------------------------------------------
Syslog为每个事件赋予几个不同的优先级(表13):
------------------------------------------------------------------------------
LOG_EMERG--紧急情况
LOG_ALERT--应该被立即改正的问题,如系统数据库破坏
LOG_CRIT--重要情况,如硬盘错误
LOG_ERR--错误
LOG_WARNING--警告信息
LOG_NOTICE--不是错误情况,但是可能需要处理
LOG_INFO--情报信息
LOG_DEBUG--包含情报的信息,通常旨在调试一个程序时使用
------------------------------------------------------------------------------
syslog.conf文件指明syslogd程序纪录日志的行为,该程序在启动时查询配置文件。该文件由不同程序或消息分类的单个条目组成,每个占一行。对每类消息提供一个选择域和一个动作域。这些域由tab隔开:选择域指明消息的类型和优先级;动作域指明syslogd接收到一个与选择标准相匹配的消息时所执行的动作。每个选项是由设备和优先级组成。当指明一个优先级时,syslogd将纪录一个拥有相同或更高优先级的消息。所以如果指明"crit",那所有标为crit、alert和emerg的消息将被纪录。每行的行动域指明当选择域选择了一个给定消息后应该把他发送到哪儿。
例如,如果想把所有邮件消息纪录到一个文件中,如下(表14):
------------------------------------------------------------------------------
#Log all the mail messages in one place
mail.* /var/log/maillog
其他设备也有自己的日志。UUCP和news设备能产生许多外部消息。它把这些消息存到自己的日志(/var/log/spooler)中并把级别限为"err"或更高。例如:
# Save mail and news errors of level err and higher in aspecial file.
uucp,news.crit /var/log/spooler
当一个紧急消息到来时,可能想让所有的用户都得到。也可能想让自己的日志接收并保存。
#Everybody gets emergency messages, plus log them on anther machine
*.emerg *
*.emerg @linuxaid.com.cn
alert消息应该写到root和tiger的个人账号中:
#Root and Tiger get alert and higher messages
*.alert root,tiger
有时syslogd将产生大量的消息。例如内核("kern"设备)可能很冗长。用户可能想把内核消息纪录到/dev/console中。下面的例子表明内核日志纪录被注释掉了:
#Log all kernel messages to the console
#Logging much else clutters up the screen
#kern.* /dev/console
用户可以在一行中指明所有的设备。下面的例子把info或更高级别的消息送到/var/log/messages,除了mail以外。级别"none"禁止一个设备:
#Log anything(except mail)of level info or higher
#Don\'t log private authentication messages!
*.info:mail.none;authpriv.none /var/log/messages
-----------------------------------------------------------------------------
在有些情况下,可以把日志送到打印机,这样网络入侵者怎么修改日志都没有用了。通常要广泛纪录日志。Syslog设备是一个攻击者的显著目标。一个为其他主机维护日志的系统对于防范服务器攻击特别脆弱,因此要特别注意。
有个小命令logger为syslog(3)系统日志文件提供一个shell命令接口,使用户能创建日志文件中的条目。用法:logger 例如:logger This is a test!
它将产生一个如下的syslog纪录:Aug 19 22:22:34 tiger: This is a test!
注意不要完全相信日志,因为攻击者很容易修改它的。
6.1.4 程序日志
许多程序通过维护日志来反映系统的安全状态。su命令允许用户获得另一个用户的权限,所以它的安全很重要,它的文件为sulog。同样的还有sudolog。另外,象Apache有两个日志:access_log和error_log。
这里用了大量的篇章来说了系统日志,是必要的。如果不能保证主机的安全,也谈不上服务了。下面,我们将详细讲一下mail日志。
6.2.1 qmail的替代日志程序
长久以来,针对标准的syslogd程序的效率,已经有很多争议了。一个消息发送给syslogd,病不能保证消息被真正的写道日志中,另外,他的写的速度并不快。
下面是slogger遵循的几个条件:
1、 每一条消息都有时间戳,时间戳被附加到消息中。
2、 每一条消息都要对关键字aler:或者warning:进行检查。如果其中有一个出现了,就为消息选定一个适当的优先级水平。
3、 消息中的不可打印的字符被转换成问号(?)。
4、 不记录空白行。
5、 超过800个字符的消息被分割成800个字符的多行消息。分割的行在时间戳后用一个加号标识。
针对以上,qmail的创始人dan bernstein开发了splogger程序,它包含在qmail软件包中。
用它来替代系统的syslog.是用splogger程序作为日志程序,将qmail记录重新定向给splogger程序,在将记录转发给linux的syslog程序。Mail日志的位置取决于/etc/syslog.conf文件设定的值,在上面我们详细将过了怎样设置。
6.2.2 读qmail日志
一旦消息被记录,就应该监控记录以发现问题。下面看一个qmail的mail日志文件(表15):
-------------------------------------------------------------------------------------
1、 Apr 11 02:02:18 mail qmail : 955436538.813320 new msg 18995
2、 Apr 11 02:02:18 mail qmail : 955436538.815787 info msg 18995: byte 603 from < root@mail.96633.net > qp 26920 uid 0
3、 Apr 11 02:02:18 mail qmail : 955436538.892499 starting delivery 103: msg 18995 to local root@96633.net
4、 Apr 11 02:02:18 mail qmail : 955436538.895936 status: local 1/10 remote 0/20
5、 Apr 11 02:02:19 mail qmail : 955436539.075785 delivery 103: success:did_0+1+0/qp-26976/
6、 Apr 11 02:02:19 mail qmail : 955436539.098222 status: local 0/10 remote 0/20
7、 Apr 11 02:02:19 mail qmail : 955436539.100838 end msg 18995
-----------------------------------------------------------------------------------
第一行给出了接收这条新消息的qmail日志。
第二行使用发送者以及消息的大小标识消息。
第三行表示qmail正在初始化发送。
第四行给出了qmail的状态。显示出邮件队列中只有一条消息在等待发送。
第五行表明成功将消息发送给本地用户。
正如以上看到,qmail项可能看起来令人疑惑,他有6种类型的qmail日志消息:
1、 状态
2、 致命问题
3、 严重问题
4、 消息
5、 发送项
6、 警告
下面我们将逐一介绍qmail的日志类型。
6.2.3 状态消息
状态消息记录了服务器上的操作。一条状态消息的格式如下:
status:local n/L remote r/R
其中n/L为队列中的本地消息数量(n) 以及本地邮件队列的大小(L)。r/R是队列中的远程消息的数量(r)以及远程邮件队列的大小。如(表15)中的第四行。如果你注意到队列频繁的被消息填满,你就有可能要改变邮件队列的大小了。可以通过更改qmail的控制文件,来实现。在《qmail管理维护(三)系统配置》中我们讲过。
6.2.4 致命问题
致命问题是那些导致qmail异常终止和停止运行的问题,应该马上处理你的mail server。
Qmail致命问题日志消息(表16)
----------------------------------------------------------------------------------
消息 描述
-----------------------------------------------------------------------------------
alert:can not start qmail-send不能初始化来进行启动。通常这是一个配置文件问题的征兆
alert:oh no! lost 一个支持后台的程序,例如:qmail-lspawn or qmail-rspawn已经死掉,因此qmail-send将关闭。
---------------------------------------------------------------------------------
6.2.5 严重问题
有严重问题的纪录,就是qmail不能处理一个特定的事件但会重试。严重问题不会qmail
停止运行,但如果持续出现,可能会导致一个致命问题出现,使qmail关闭。如下:
qmail严重问题日志(表16)
-------------------------------------------------------------------------------------
消息 描述
------------------------------------------------------------------------------------
alert: unable to append bounce message qmail-send不能处理一个永久的发送失败,通
常是没有硬盘空间了。
alert: out of memory qmail-send 试图分配内存,但是失败了
alert: unable to opendir qmail-send不能从硬盘打开一个文件列表,因
为权限不够,或描述符表已满。
alert: unable to switch back qmail-send收到一个sighup信号,但不能读队列目录。
alert: unable to reread qmail-send收到一个sighup信号,但不能读控制目录。
------------------------------------------------------------------------------
6.2.6 qmail消息
qmail为进入和退出qmail系统的每一条消息创建了一个日志纪录。这些日志记录是基每
一条消息指定一个标号。下面是一些可能出现的消息日志项(表17)
-----------------------------------------------------------------------------
消息 描述
-------------------------------------------------------------------------------
new msg m qmail-send正在处理邮件队列中的消息号为m
info msg m: bytes b from <s> qp q uid u 消息m包含了b个字节,来自发送者s,被用户ID u排队,队列标识符为q。
bounce msg m qp q 消息m发送失败。返回消息的队列标识符为q。
triple bounce: discarding m 消息m被标识成不能发送的两次返回消息,
将被删除。
end msg m 消息m正被从队列中除去。
-----------------------------------------------------------------------------------
6.2.7 发送项
当qmail-send试图发送一条消息,必须将一条状态消息纪录到日志中。下面给出了可能的
发送项日志消息。Qmail发送日志项(表18)
-------------------------------------------------------------------------------------
消息 描述
------------------------------------------------------------------------------------
starting delivery d: msg m to qmail-send正在处理一个发送消息m,发送ID为d。
delivery d: success 发送项d被成功的发送给接收方。
delivery d: deferral 发送项d遇到一个暂时的发送失败,将重试。
delivery d: failure 发送项d遇到一个永久失败,消息将返回。
delivery d: report mangled will defer 发送项d在qmail-rspawn 或qmail-lspawn中遇到问题,将重试。
-------------------------------------------------------------------------------------
6.2.8 警告
当在处理邮件中遇到错误,qmail将做为警告记录到日志中。警告表示了qmail能解决的
暂时性问题。但是,警告可能是一个在问题的前兆。下面是一些qmail的警告消息(表19)
----------------------------------------------------------------------------------
消息 描述
-----------------------------------------------------------------------------------
internal error: delivery report out of range qmail-lspawn或qmail-rspawn为一个不存在的发送项ID返回了一个发送报告。
qmail-clean unable to clean up qmail-clean不能删除一个文件。
trouble fsyncing qmail-send不能重写磁盘。
trouble in select 一个可能的操作系统错误。
trouble injecting bounce message qmail-send不能排队一个返回消息。
trouble marking qmail-send不能记录一次发送不成功的结果。
trouble opening qmail-send不能打开本地和远程接收者的列表。
trouble reading qmail-send不能读收者的列表。
trouble writing to qmail-send不能处理一条列表中的消息。
trouble to create qmail-send不能处理一条列表中的消息。
unable to open qmail-send不能读一条排队消息中的信件头。
unable to start qmail-queue qmail-queue qmail-send不能排队一条返回消息。
unable to stat qmail-send不能得到有关一个文件的消息。
unable to unlink qmail-send不能删除一个文件。
unable to utime qmail-send不能纪录下一次调度发送时间。
unknown record type in qmail-send或qmail-queue中的一个严重的错误。
----------------------------------------------------------------------------------
6.2.9 日志管理工具
qmail日志文件是状态消息,发送消息、问题消息的一个复杂体。通过察看日志,能缩小
和发现问题所在。对于看大量的日志文件,非常烦恼。可以借助于一些日志工具,来减小工
作量。
常用的工具有Dan Bernstein开发的qmailanalog。
Web站点http://cr.yp.to/qmailanalog.html 。他的实用程序是matchup、xrecipient、xsender工具。
第二个是daemontooks软件,他的multlog工具是一个不错的选择。用它来替代unix的
logger程序。他的web站点:http://cr.yp.to/daemontools/daemontools.html。有兴趣,大家可
以看看。
小结;
其实,问题是多种多样的,各个方面的。通过对日志很好的分析,可以帮助大家找出问
题和预防事故。这里只是一个简单介绍,日志和问题出现的情况,还有退信信息等等结合起
来,会更好的发现问题的原因,从而解决问题。当然,日志也不是绝对的,具体情况,要具
体分析了。