数据压缩概述
文件中数据冗余的最简单的类型是"字符的复制"。让我们先来看下面一个字符串:
JJJJJJAAAAVVVVAAAAAA
这个字符串可以用更简洁的方式来编码,那就是通过替换每一个重复的字符串为单个的实例字符加上记录重复次数的数字来表示,上面的字符串可以被编码为下面的形式:6J4A4V6A
在这里,"6J"意味着6个字符J,"4A"意味着4个字符A,以此类推。这种字符串压缩方式称为"行程长度编码"方式,简称RLE。
再举一个例子,考虑一下矩形图像的存储。一个单色位图,可以被存储为下面这种形式。
另外一种方式是将图像存为一个图元文件:
Rectangle 11, 3, 20, 5
上面的表示方法是讲矩形的起始坐标是(11,3),宽度是20,高度是5。
上述的矩形图像可以使用RLE编码方式压缩,通过对相同位记数表示如下:
0, 40
0, 40
0,10 1,20 0,10
0,10 1,1 0,18 1,1 0,10
0,10 1,1 0,18 1,1 0,10
0,10 1,1 0,18 1,1 0,10
0,10 1,20 0,10
0,40
上面第一行是讲图像的第一行由40个0组成。第三行是讲图像的第三行是由10个0加上20个1再加上10个0组成,其它行以此类推。
大家注重,RLE方法需要将其表示的文件与编码文件分开。所以,这种方法不能应用于所有的文件。其它的压缩技术包括变长编码(也被称为哈夫曼编码),还有其它的方法。要想了解更具体的信息,请参考有关数据和图像压缩技术方面的图书,一定会有收获的。
数据压缩有很多益处。不管怎么说,最主要的好处就是减少存储方面的需求。同样的,对于数据通信来讲,压缩数据在媒体中的将导致信息传输数据的提升。数据的压缩能够通过软件在现有的硬件设备上实现或者通过带有压缩技术的非凡的硬件设备来实现。
ZIP VS GZIP
假如你是在Windows系统下工作,你可能会对工具WinZip很熟悉,是用来创建压缩档案和解开压缩档案的。而在UNIX平台上,会有一些不同,命令tar用来创建一个档案文件(并不压缩),其它的程序(gzip或compress)用来创建一个压缩档案。
WinZip和PkZip之类的工具同时扮演着归档和压缩两个角色。他们将文件压缩并将其归档。另一方面,gzip并不将文件归档。所以,在UNIX平台上,命令tar通常用来创建一个档案文件,然后命令gzip来将档案文件压缩。
Java.util.zip包
Java提供了java.util.zip包用来兼容ZIP格式的数据压缩。它提供了一系列的类用来读取,创建,修改ZIP和GZIP格式的文件。它还提供了工具类来计算任意输入流的数目,这可以用来验证输入数据的有效性。该包提供了一个接口,十四个类,和两个异常处理类,如表1所示。
表1: java.util.zip包
条目 类型 描述
Checksum 接口 被类Adler32和CRC32实现的接口
Adler32 类 使用Alder32算法来计算Checksum数目
CheckedInputStream 类 一个输入流,保存着被读取数据的Checksum
CheckedOutputStream 类 一个输出流,保存着被读取数据的Checksum
CRC32 类 使用CRC32算法来计算Checksum数目
Deflater 类 使用ZLIB压缩类,支持通常的压缩方式
DeflaterOutputStream 类 一个输出过滤流,用来压缩Deflater格式数据
GZIPInputStream 类 一个输入过滤流,读取GZIP格式压缩数据
GZIPOutputStream 类 一个输出过滤流,读取GZIP格式压缩数据
Inflater 类 使用ZLIB压缩类,支持通常的解压方式
InlfaterInputStream 类 一个输入过滤流,用来解压Inlfater格式的压缩数据
ZipEntry 类 存储ZIP条目
ZipFile 类 从ZIP文件中读取ZIP条目
ZipInputStream 类 一个输入过滤流,用来读取ZIP格式文件中的文件
ZipOutputStream 类 一个输出过滤流,用来向ZIP格式文件口写入文件
DataFormatException 异常类 抛出一个数据格式错误
ZipException 异常类 抛出一个ZIP文件
注重:ZLIB压缩类最初是作为可移植的网络图像文件格式(PNG)标准的一部分开发的,是不受专利保护的。
从ZIP文件中解压缩和提取数据
java.util.zip包提供了数据压缩与解压缩所需要的类。ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件。ZipInputStream流的创建与其它输入流的创建没什么两样。举个例子,下面的代码段创建了一个输入流来读取ZIP格式的文件:
FileInputStream fis = new FileInputStream("figs.zip");
ZipInputStream zin = new ZipInputStream(new BufferedInputStream(fis));
ZIP输入流打开后,你可以使用getNextEntry方法来读取ZIP文件中的条目数,该方法返回一个ZipEntry对象。假如到达文件的尾部,getNextEntry返回null:
ZipEntry entry;
while((entry = zin.getNextEntry()) != null) {
// extract data
// open output streams
}
现在,你应该建立一个输出流,如下所示:
int BUFFER = 2048;
FileOutputStream fos = new FileOutputStream(entry.getName());
BufferedOutputStream dest = new BufferedOutputStream(fos, BUFFER);
注重:在这段代码中我们用BufferedOutputStream代替了ZIPOutputStream。ZIPOutputStream和GZIPOutputStream使用内置的512字节缓冲。当缓冲区的大小大于512字节时,使用BufferedOutputStream才是正确的(例子中设置为2048)。ZIPOutputStream不答应你设置缓冲区的大小,GZIPOutputStream也是一样,但创建 GZIPOutputStream 对象时可以通过构造函数的参数指定内置的缓冲尺寸。
这段代码中,使用ZIP内含的条目名称创建一个文件输出流。可以使用entry.getName来得到它的返回句柄。接着读出被压缩的源数据,然后写入输出流:
while ((count = zin.read(data, 0, BUFFER)) != -1) {
//System.out.write(x);
dest.write(data, 0, count);
}
最后,不要忘记关闭输入和输出流:
dest.flush();
dest.close();
zin.close();
例程1的源程序UnZip.java显示如何解压缩并从ZIP档案中将文件释放出来。测试这个例子,编译这个类,并运行它,传给它一个ZIP格式的文件作为参数:
prompt> java UnZip somefile.zip
注重:somefile.zip应该是一个ZIP压缩档案,可以用任何一种ZIP压缩工具来创建,例如WinZip。