中文文件名无法下载的问题

王朝asp·作者佚名  2006-01-09
窄屏简体版  字體: |||超大  

中文文件名无法下载的问题

/**

慈勤强

Http://blog.csdn.net/cqq

*/

在网上经常会看到有人问这样的问题:“我的文件名是中文的,放到Web服务器上让别人下载,

却总是提示找不到文件,不过文件明明在那里呀?”。这种问题说到底就是编码的问题,什么UTF8、

GBK、BIG5,一看就头疼。

对于这种问题,网上也有人提出了好多解决办法,比如对请求的文件名编码,或者把IE->工具

--〉选项--〉高级 最下边的始终以UTF8编码发送的勾去掉,也就是不用UTF8编码发送URL,不过

因为IE是默认的以UTF编码发送,所以就要每个人都改IE设置。

出现这种问题的大致原因就是:IE把URL中的中文以UTF8编码--->Web服务器接到URL之后,要进行

解码,不同的WEB服务器解码规则也是不同的,不过一般都是以默认的字符集来解码,比如中文系统

一般都是GBK吧,这样解出来的编码自然就是错的。

我的机器环境是:win2000中文+IIS5 ,下面我们来做个实验

一、在web根目录下新建一个文件,文件名为 "慈勤强.txt",内容为慈勤强

我们通过网页访问http://127.0.0.1/慈勤强.txt, 发现这个没问题,能够正常显示文件内容

二、我们再建一个文件 "勤强.txt",内容为勤强

我们通过网页访问http://127.0.0.1/勤强.txt ,结果发现,无法找到网页

三、我们再建一个文件 "鍕ゅ己.txt" ,内容为 “乱码”

我们通过网页访问http://127.0.0.1/鍕ゅ己.txt ,发现这个也没有问题,可以正常显示

四、这时,我们再访问一下http://127.0.0.1/勤强.txt ,结果发现又可以访问了,

但是很遗憾,出现的内容并不是我们希望的“勤强”,而是"乱码",也就是"鍕ゅ己.txt"文件的内容.

至此,大家应该可以明白一点了,就是"勤强"经过UTF8编码以后,IIS再用GBK解码,就解码成了"鍕ゅ己"

关于编码是挺繁琐的一件事情,在这里就不深入的分析了,大家只要知道UTF8编码,对于中文会编码成

3个字节,而Unicode\GBK都是两个字节的. 比如

勤强 两个字经过UTF8编码以后变成了 %E5%8B%A4%E5%BC%BA ,一共6个字节了,%E5%8B%A4 是勤

%E5%BC%BA 是强

IIS解码则是按照两个字节一个汉字的方式来解码,也就是会把 %E5%8B 按照gbk解码成一个字, %A4%E5 一个

%BC%BA 代表一个字。 我们可以去查GBK编码表,发现 E58B 是鍕, A4E5是ゅ,BCBA是己。

所以,对于IIS来说,如果非要用中文文件名的话, 中文的字数就应该是奇数的,就应该不会有问题

(我这台机器得出的结论,可能不适合别的),

比如 词.txt 茨此次.txt 都可以正常显示,偶数的就会出问题了,比如"我们都是小孩.txt"。

对于其他的Web 服务器,比如apache之类的,可能就不是这个样子的了,具体也不清楚。

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
 
 
© 2005- 王朝網路 版權所有  導航