Java语言的中文处理 - 王朝网络宽屏版

Java 的基本的char 类型被定义成无符号的16 位，它是Java 中唯一的一个无符号类型。使用16 位表达字符的主要原因是要让Java 能够支持任何Unicode 字符，因此而使得Java 适用于描述或显示任何被Unicode 支持的语言，可移植性也就会更好。但是，能够支持某种语言的字符串显示，和能够正确打印某种语言的字符串，常常是两个不同的问题。由于Oak（Java 最初的代号）开发组的主要环境是Unix 系统和某些源于Unix 的系统，所以对开发人员来说，最为方便实用的字符集是ISO Latin-1。相应地，这一开发组就带有Unix 遗传性，也就导致了Java 的I/O 系统在很大程度上以Unix 的流概念为模型，而在Unix 系统中，每一种I/O 设备都是用一串8 比特的流来表示。这种在I/O 系统方面取模于Unix 的做法，使得Java 语言拥有16 位的Java 字符，而却只有8 位的输入设备，这样就给Java 带来了些不足。因此在任何一处Java 字符串按8 位来读入或写出的地方，都得有一小段程序代码，被称为" 劈(hack)"，来将8 位的字符映射成为16 位Unicode，或将16 位的Unicode 劈成8 位字符。

例子：

下面程序代码：说名利用InputStringReader类，从原始的byte数据来转换成既定的字符集

import java.io.*;

public class rfnew

{

public static void main(String args[])

{

FileInputStream fis;

InputStreamReader isr;

char ch;

try

{

fis = new FileInputStream("gq.txt");

isr = new InputStreamReader(fis);

while (true)

{

ch = (char) isr.read();

System.out.print(ch);

System.out.flush();

if (ch == '\n') break;

}

fis.close();

}

catch (Exception e) { }

System.exit(0);

}

InputStringReader类的说明:

An InputStreamReader is a bridge from byte streams to character streams: It reads bytes and decodes them into characters using a specified charset. The charset that it uses may be specified by name or may be given eXPlicitly, or the platform's default charset may be accepted.