分享
 
 
 

分析 Java 中乱码问题产生的根源

王朝java/jsp·作者佚名  2008-05-31
窄屏简体版  字體: |||超大  

最近用到了字符串的压缩,用到了GZipInputStream和GZipOutputStream,再次碰到了阔别已久的中文乱码问题。

看了一些相关的文章,觉得我们之所以会碰到这样那样的乱码问题,基本上都是由于我们在某些地方隐含了byte到char的转换,而这种隐含的转换采用的是iso-8859-1的编码进行的。

以jsp页面中文传递为例子,假设客户端的编码是GB2312,表单中的中文提交后,首先根据GB2312编码转换为字节流,到达服务器端后,假如我们直接在servlet中调用request.getParameter(String name)等方法,由于方法返回的是String 对象,所以其中必然隐含了一次从byte到char的转换,错误也就是在这里产生的,假如这次转换采用的编码是iso-8859-1,得到的当然是乱码。

public class Login

extends HttpServlet {

private static final String CONTENT_TYPE = "text/Html; charset=UTF-8";

.....

//Initialize global variables

public void init() throws ServletException {

}

//Process the HTTP Get request

public void doGet(HttpServletRequest request, HttpServletResponse response) throws

ServletException, IOException {

String name = request.getParameter("userid");//隐含的转换

name = new String(name.getBytes("iso-8859-1"), "GB2312");//还原字节,重新构造

response.setContentType(CONTENT_TYPE);

PrintWriter out = response.getWriter();

out.println("<html");

out.println("<head<titleLogin</title</head");

out.println("<body bgcolor=\"#ffffff\"");

out.println("<pThe servlet has received a GET. This is the reply.</p");

out.println("</body");

out.println("</html");

out.close();

}

}

幸好,以iso-8859-1进行的默认转换不会损失字节,也不会增加字节,我们只要按照iso-8859-1的方式返回原来的字节数组,重新按照GB2312的方式进行byte 到char的转换就可以了。

再以压缩流为例(文件流实际上也是一样的)

public String uncompress(byte[] cmp) {

String ret = "";

int i;

byte[] buf = new byte[512];

try {

/**

*新的方式,始终保持以字节为核心,最后再按照合适的编码进行组装

*/

BufferedInputStream bis = new BufferedInputStream(new GZIPInputStream(new

ByteArrayInputStream(cmp)));

/**

* 以前的方式

* 在 new InputStreamReader()的时候发生了隐含的byte到char的转换,导致之后出来的都是乱码

*/

//BufferedReader bis = new BufferedReader(new InputStreamReader(new

//GZIPInputStream(new

//ByteArrayInputStream(cmp))));

ByteArrayOutputStream baos = new ByteArrayOutputStream();

BufferedOutputStream bos = new BufferedOutputStream(baos);

while ( (i = bis.read(buf)) 0) {

bos.write(buf, 0, i);

}

bos.close();

baos.close();

bis.close();

ret = new String(baos.toByteArray());//用平台默认的编码进行组装,我是GB2312

}

catch (IOException ex) {

ex.printStackTrace();

}

return ret;

}

reader是以字符为核心,inputStream是以byte为核心的,当他们转换的时候就会进行byte到char的转换,所以我们要注重自己的调用的顺序。

我们假如今后再碰到乱码的问题,就去找找自己是不是什么地方进行了隐含的byte到char的转换。

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
推荐阅读
 
 
 
>>返回首頁<<
 
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有