垃圾邮件出现在10年前,反垃圾邮件技术及其应用则相应开始于上个世纪末尾。经过了多年的发展,反垃圾邮件技术有了很大的进步,可是垃圾邮件却反而有越演越烈之势。要彻底解决垃圾邮件问题,显然反垃圾邮件技术是根本保证,可是成熟的技术究竟离我们还有多远?
垃圾邮件的泛滥让人们纷纷寻求各种对抗和解决手段,其中,技术手段是最直接和最根本的手段。上个世纪末出现了反垃圾邮件技术,经过近几年的发展,反垃圾邮件技术和产品应用都有了很大、很广的进步,但是垃圾邮件技术也在不断改变,导致现在垃圾邮件数量依旧居高不下,问题还是十分严重。蓦然回首,反垃圾邮件技术,已经趟过好多座“山”,可望前方,反垃圾邮件技术的征程却还有三道“坎”。
第一道“坎”:
SMTP协议的缺陷
垃圾邮件之所以能够如此猖獗的泛滥,事实上与上个世纪七十年代制定的电子邮件协议SMTP协议(简单邮件传输协议)本身的缺陷有关,虽然SMTP历经了多次的修订,但并没有从根本上解决垃圾邮件产生和传播的问题。
SMTP协议本身是一个简化的邮件递交协议,缺乏很多必要的身份认证,这是SMTP协议造成垃圾邮件泛滥的原因之一。由于SMTP协议中,允许发信人伪造绝大多数的发信人特征信息,如:发信人、信件路由等,甚至在通过匿名转发、开放转发和开放代理等手段后,可以近乎完全的抹去垃圾邮件的发信人特征。目前,绝大多数的垃圾邮件都伪造了其真实的发信来源,这对于发现制止垃圾邮件的传播造成了很大困难。
SMTP协议还缺少一些必要的行为控制,不能有效地甄别正常的邮件发送和垃圾邮件发送行为,这是造成垃圾邮件泛滥的原因之二。垃圾邮件的发送通常有一定的行为特征,比如在较短的时间内发送极其大量的电子邮件,发信通讯中通常有特定的通讯特征等。
虽然SMTP的这些缺陷在互联网发展初期还并不是一个严重的问题,甚至是符合当时的实际情况的,但是随着互联网的发展,其先天的不足也越发凸显了出来。
出于兼容性的要求,几乎不可能推翻已经被广泛接受的SMTP协议,而采用新的协议替代它。所以现在的反垃圾邮件技术主要是通过对SMTP的小量的兼容性修改和在SMTP通讯的前后增加处理环节。
第二道“坎”:
死板的连接控制技术
目前,反垃圾邮件技术的一个主要方向就是“连接控制”,就是通过检查和校验发送邮件的邮件来源是否是一个合法的邮件来源,来决定该邮件是否当作垃圾邮件处理。主要是针对SMTP协议进行增强和修补,以期在邮件投递过程中判定垃圾邮件并过滤。
连接控制型技术主要是通过检查SMTP协议通讯过程中不合法的通讯行为来判定垃圾邮件。比如通过实时黑名单可以直接拒绝来自垃圾邮件源的垃圾邮件、比如通过检查发信人是否真实存在并与宣称的发信人是否相同等方法都是这种技术。
这种技术对垃圾邮件处理能力的要求较低,不需要太大的处理能力。它能够节省大量的带宽、存储容量和处理时间。但是这种技术相对比较死板,对垃圾邮件的判定准确度不够。对于现在的连接控制型技术来说,大多有一定的缺陷。例如:对于“实时黑名单技术”来说,它的效率很高,但是对于被阻断的IP地址,不分青红皂白就全部拒绝有些武断,而且“实时黑名单”的数据更新速度总是稍慢于垃圾邮件出现的速度。同样,对于“FQDN名称检查”和“RFC 821格式检查”,虽然大多的垃圾邮件发送程序都不符合这个标准;但是,确实存在着很多配置不善的邮件服务器。这样也难免出现误判的情况。
第三道“坎”:
不堪重负的内容分析技术
另外一个反垃圾邮件技术的主要方向是“内容分析”,就是通过对邮件内容的分析,使用人工智能、概率论等方法来判断该邮件是否是垃圾邮件。主要是针对邮件在经过SMTP协议投递后,对邮件的内容进行倾向性分析,判定其是否可能是垃圾邮件。
内容分析型技术主要是在邮件接收后通过分析信件内容来判定垃圾邮件。比如通过特定关键字匹配、通过以贝叶斯算法为代表的概率论方法来判断邮件的内容倾向性都是这种技术。
这种技术对垃圾邮件的处理能力要求较高,需要较多的处理能力。它能够有效地识别出是否为垃圾邮件。但是在邮件流量大的情况下,所带来的负载也很可观。对于现在的内容分析型技术,大多存在一定的缺陷,例如:对于“关键字/正则表达式匹配”,虽然对于特定的垃圾邮件,比如病毒蠕虫邮件、拥有独特的关键字的垃圾邮件、拥有特定格式的垃圾邮件来说,是非常有效果的;但是这种方法存在一定的误判,甚至有时候条件设置不够严密,可能造成很大的误判;同样,对于“内容倾向性概率分析”,在取样样本足够和样本学习方向调整的情况下,对于垃圾邮件的判断准确性非常高。但是,一方面,积累一个足够全面的样本库比较困难;另一方面,概率分析总是存在一定概率的错误分布,即便这个概率比较小。此外,对邮件进行概率分析,对处理能力的占用比较大,因此处理大量的邮件时,带来的负载比较高。
综合应用翻越技术之“坎”
通过上面分析,可以看出,目前两种主流的反垃圾邮件技术均有各自的优缺点,现在较为成熟的产品都是综合采用了这两种方法,当前综合应用这些反垃圾邮件技术,一般情况下,可以取得90%以上的垃圾邮件识别率和5%以下的正常邮件的误判率。通过适当的技术手段,比如对误判和漏判的报告,完全可以满足反垃圾邮件的需要。
随着微软向IETF提出Sender ID框架的反垃圾邮件技术草案,和以贝叶斯理论为代表的概率论方法的成熟,这两类技术都在逐渐提高并得到进一步的推广应用。
表格 1 常见连接控制型技术的应用阶段
表格 2 常见内容分析型技术的应用阶段
2004年国内垃圾邮件数量呈急剧上涨态势
中国垃圾邮件发展变化图
中国互联网协会反垃圾邮件协调小组通过调查显示,中国的垃圾邮件数量呈急剧上涨的态势,2003年12月,中国网民平均每周收到的垃圾邮件数为1.85封,而最近2004年9月的调查数据则是27.8封,垃圾邮件泛滥到如此地步,已经不是可以仅仅依靠某一方面的措施能解决的问题了。
网民认为治理垃圾邮件的最有效的是综合治理
网民调查 :反垃圾邮件的最有效途径
中国互联网协会反垃圾邮件协调小组通过网上调查结果显示,网民认为治理垃圾邮件的最有效的的方法是综合治理之道。调查从2004年8月30日到2004年9月30日,为期1个月,其中有40%的人认为垃圾邮件需要综合治理,34%表示需要立法支持,技术解决之道居于中间位置,共有31%。让我们感到意外的是,有19%表示反垃圾邮件还需要网民的参与。