图片垃圾邮件:2006年垃圾邮件泛滥

概览

全世界的最终用户都反映垃圾邮件在增长。究其原因主要在于形式更为复杂的新型图片垃圾邮件再度泛滥。

图片垃圾邮件,是垃圾邮件发送者宣传其信息并诱使用户针对信息进行操作的一种技术。垃圾邮件发送者将信息作为嵌入附件的一部分(如.gif 或者 .jpeg文件)而不是在邮件主题内容中发送。这些图片自动地显示给最终用户,但是图片内容本身却可以躲过大部分垃圾邮件过滤器。

更复杂的图片垃圾邮件的增长已经导致电子邮件安全行业垃圾邮件截获率的全面下降,降低了生产力并使最终用户感到失望,因为更多的垃圾邮件进入了他们的收件箱。因为许多邮件系统无法跟上这些垃圾邮件数量的增长,图片垃圾邮件数量的飙升,再加上大垃圾邮件所占比例的增加,正在堵塞电子邮件基础设施。

本文总结了(1)图片垃圾邮件的最新趋势;(2)图片垃圾邮件难以检查发现的原因;(3) IronPort®产品如何保护客户免受这种日益增长的威胁的影响。

下载图片垃圾报告

在全球图片垃圾邮件增加的推动下,垃圾邮件总量在2006年第二季度飙升

发展趋势与解决方案

根据IronPort公司SenderBase® 网络的监视结果,垃圾邮件的数量在2005年比较稳定,但是到了2006年第二季度又开始猛增。如下图左轴所示,SenderBase表明全球垃圾邮件数量在过去的12个月间从每天大约300亿件增加到超过500亿件。IronPort监视到垃圾邮件数量仅在第二季度就增长40%。这意味着即使垃圾邮件截获率保持不变,普通的最终用户也将发现4月份以后他们收件箱中的垃圾邮件数量增加了40%。

垃圾邮件总量的增长主要是由于图片垃圾邮件的增长造成的。如下图右轴所示,图片垃圾邮件在垃圾邮件总量中所占的比例从一年前的大约3%上升到了今天的20%以上。

垃圾邮件数量急剧增长的根本原因是金钱的利益驱动。赚钱是垃圾邮件发送者发送垃圾邮件的唯一目的。往收件箱中发送的消息越多,收件人根据这些消息采取行动的可能性就越大,因而垃圾邮件发送者获益就越大。

正如下一节所阐述的,对于大部分垃圾邮件过滤器,随机的图片垃圾邮件非常难于检查,因此多数此类邮件都能发送成功。垃圾邮件发送者还将他们的图片制作得看起来很正常或者非常吸引用户,从而获得更高的响应率。因为这些因素在短时间内不可能发生改变,因此IronPort认为图片垃圾邮件在可预见的未来仍将是一个问题。IronPort还注意到图片垃圾邮件的使用方式也不断地推陈出新,意味着检查发现图片垃圾邮件将很快变得更具有挑战性。

为什么难以检查发现图片垃圾邮件?

图片垃圾邮件已经出现了几年的时间,最初的产生是为了通过“启发式”过滤器。“启发式”过滤器拦截包含垃圾邮件常用词语的消息。由于图片文件的格式与电子邮件中的文本完全不同,启发式过滤器绝对“发现”不了垃圾邮件信息的内容,因此这些过滤器很容易被这类垃圾邮件欺骗。

为了解决这个问题,反垃圾邮件厂商开发了“模糊特征”技术。这些基于特征的技术收集已知垃圾邮件的样本,然后将“近乎相同”的信息都归类为垃圾邮件。特征的编写有时就是针对附件的,所以内容不同但附件相同的信息也将被标记为垃圾邮件。

几年来,基于特征的防护机制是有效的。但是到了2006年,垃圾邮件发送者开始对图片进行随机处理,使这些图片在人看来是一样的,但是对于垃圾邮件过滤器却是完全不同。例如,有些垃圾邮件发送者利用附加.gif文件进行广告宣传,促使人们购买股票。附加的.gif文件在图片中随机插入了“圆点”,而且边界的颜色和宽度也有细微的差别。大部分反垃圾邮件厂商赖以根据图片的这些微小变化检查发现垃圾邮件的特征相差很大,这意味着反垃圾邮件厂商可以发布一条规则来阻挡一种图片变种,但是这条规则并不能阻挡这种垃圾邮件的其他变种。

垃圾邮件发送者随机处理图片的方式几乎是无限的。除了插入“圆点”外,垃圾邮件发送者最近已经采用的技术有改变图片中所用的颜色、修改图片边界的宽度和样式、变换字体以及将图片“切分”成若干部分(然后再将其重新组合成在收件人看来是一幅图片)。为了突破基于特征的防护机制,垃圾邮件发送者最近采用了许多技术,第三页中给出了其中的两个实例。

实例1

“波尔卡点”

嵌入的.gif文件包含所有的“文本”和在图片中随机插入的圆点,使每个信息对于垃圾邮件过滤器来说都是不一样的。

实例2

“切条儿&切块儿”

图片被分解成大小不同的许多小块,然后在邮件代理处又被重新组合,使得在邮件接收者看来就是一幅图片。这条信息由超过12个图片文件构成,图中长方形高亮框代表其中一个图片文件的边界。

有些厂商最近推出了光学字符识别(OCR)作为一种检查发现图片垃圾邮件的方法。光学字符识别是一种用于从图片中提取打印文本的技术。虽然采用这种技术比仅使用基于特征的解决方案更有效,但是它存在着一些局限。首先,光学字符识别计算量非常大。将每条信息完全转换成文字,然后再对照不同的字符库进行字匹配检查,完成这个过程一条信息可能需要几秒钟之多。系统吞吐量因此降低到了大部分ISP和企业无法接受的程度。其次,光学字符识别极易被弄得无所适从。虽然现代光学字符识别技术可以非常可靠地检查出打印的字母和数字,但是却很容易被垃圾邮件发送者采用的一些简单技术所蒙蔽。例如,光学字符识别在检查发现包含手写文本、图形或者抽象数据的图片垃圾邮件时是无效的。

利用IronPort反垃圾邮件技术(IronPort Anti-Spam)免受基于图片的威胁

IronPort 反垃圾邮件系统(IronPort Anti-Spam™)采取独特的多层方法,可将98%以上的基于图片的垃圾邮件拒之门外,误判率接近为零。这种防护机制的第一层防护由IronPort公司的上下文自适应扫描引擎(Context Adaptive Scanning Engine™ (CASE))来完成。第二层是图片垃圾邮件内层防护,由IronPort公司正在申请专利的多维模式识别技术(Multidimensional Pattern Recognition™ (MPR))来完成。

语境自适应扫描

大多数反垃圾邮件过滤器在阻止垃圾邮件时都非常依赖于内容分析,这就如同是在沙滩上盖房子一样。这些过滤器有一个共同的缺陷,那就是它们检查垃圾邮件时所十分依赖的依据可被垃圾邮件发送者自身随意操纵。图片垃圾邮件就是基于内容的过滤器存在缺陷的一个例证。如第三页所示的例子,垃圾邮件的“内容”由于嵌入在图片本身之中,因此对于许多过滤器隐形了。

为了能够检查发现图片垃圾邮件,IronPort运用对收到的消息全面进行语境分析的技术,扩大了传统的基于内容的方法的能力。CASE通过分析四个方面的问题检测是否受到威胁:

  1. 谁发送的消息?我们对发信人有何了解?
  2. 消息中鼓动采取的行动将把你引向何方?
  3. 消息内容的本质是什么?
  4. 从技术角度看,消息是如何构成的?

IronPort不是根据消息内容生成一个特征,而是为基于图片的垃圾邮件攻击创建一个专门的垃圾邮件档案,其内容包括“谁发送的邮件、将把你带向何方、消息的本质以及消息的构成方式”

例如,可能为一个从动态IP地址发出的消息创建一个档案。该消息包含确定的头样式,有大小、类型特定的嵌入图片,电子邮件本身的主题内容中包含很少或者不包含文本。单独考虑这些情况都不可能肯定地确定该消息是垃圾邮件,但是综合考虑这些情况就可以判断得非常准确。语境自适应扫描使IronPort得以不对消息文件进行解码,就可滤除大部分基于图片的垃圾邮件的攻击。第二层保护由多维模式识别(MPR)提供。

多维模式识别

人眼极易识别图片垃圾邮件。事实上,这正是图片垃圾邮件吸引垃圾邮件发送者的属性之一,因为他们在发送图片垃圾邮件时,不必为了避免被过滤掉而像处理传统的文本垃圾邮件那样花费很大的力气去模糊邮件内容。但是,如果这种垃圾邮件对于最终用户如此明显,那么为什么垃圾邮件过滤器无法识别呢?

问题在于人类利用非常丰富的数据集而不仅仅是显示的文本来解译消息内容。图片颜色、形状、字体的大小和类型、图形等属性以及其他许多特性也是形成读者认知消息的因素。这些信息对于传统的内容过滤器是完全隐藏的,像光学字符识别这样的技术也只能捕捉到很少一部分。

为了解决这个问题,IronPort Anti-Spam开发了一种被称为多维模式识别(MPR)的技术,并且正在申请专利。二进制图片解码之后,IronPort利用多维模式识别技术跨13个以上的维度对解压缩后的图片数据进行分析,以确定这条消息是否是垃圾邮件。

以颜色维度为例,颜色维度提供了丰富的有关消息内容的信息。IronPort对每条消息的颜色分布进行分析,以确定消息是垃圾邮件的可能性。例如,MPR可以对.gif文件进行扫描,确定其像素模式。像素模式能够表明图片文件向用户显示的是“全文本”,这种模式常见于垃圾邮件中却罕见于合法邮件中(大多数合法的.gif文件包含的是图片而不是文本)。MPR还可以发现图片中与合法邮件常见的“更加平滑”的光线渐变现象不吻合的异常“圆点”(这些原点可能是垃圾邮件发送者试图欺骗特征的表现)。

为了使这层检查成为可能同时又不损害性能,IronPort应用了“及早退出”的理念。这意味着更彻底的MPR检查过程,只应用于那些已经通过常规的上下文自适应扫描并且带有图片的消息。MPR检查过程也运用了同样的理念,如果对部分图片文件进行分析后就有足够的数据确定这是一封垃圾邮件,就不再对整个图片文件进行分析。最后的结果是,MPR检查过程不仅准确,而且比传统的OCR技术快若干倍。这种技术之所以有效的关键在于IronPort反垃圾邮件的实时性。每五分钟对系统进行一次更新,确保即时、准确地保护系统不受基于图片的垃圾邮件的威胁。