浅谈字符集问题
txfy
应论坛上的请求,先写了这么个东西,还很不完善,慢慢补充,大家也多提意见!
一:首先介绍一个概念:
NLS ‘National Language Support (NLS)’ 从概念我们看出这个参数实际上定义了数据库的存放数据的语言环境,当我们设定一种nls的时候实际上我们是为Oracle在存放数据时指定了他的语种所特有的一些表达形式,比如我们选择chinese,那么它的中文字符如何存放,按什么规则排序,货币如何表示,日期格式也就被设定了。
二:那么如何查询我们的数据库中到底使用的是什么字符集呢?
SQL> select * from V$NLS_PARAMETERS;
NLS_LANGUAGE SIMPLIFIED CHINESE
NLS_TERRITORY CHINA
NLS_CURRENCY RMB
NLS_ISO_CURRENCY CHINA
NLS_NUMERIC_CHARACTERS .,
NLS_CALENDAR GREGORIAN
NLS_DATE_FORMAT DD-MON-RR
NLS_DATE_LANGUAGE SIMPLIFIED CHINESE
NLS_CHARACTERSET ZHS16GBK
NLS_SORT BINARY
NLS_TIME_FORMAT HH.MI.SSXFF AM
NLS_TIMESTAMP_FORMAT DD-MON-RR HH.MI.SSXFF AM
NLS_TIME_TZ_FORMAT HH.MI.SSXFF AMTZR
NLS_TIMESTAMP_TZ_FORMAT DD-MON-RR HH.MI.SSXFF AM TZR
NLS_DUAL_CURRENCY RMB
NLS_NCHAR_CHARACTERSET AL16UTF16
NLS_COMP BINARY
NLS_LENGTH_SEMANTICS BYTE
NLS_NCHAR_CONV_EXCP FALSE
其中nls_language表示了中文显示方式,nls_characterset是字符集设定,另外date,time等为日期时间的格式,currency是货币格式。
三:存在问题及解决方法。
我们在使用字符集过程中主要存在两种问题。
一)是我们在查询时显示中文部分显示乱字符。
这一般是由于服务器端的字符集设定与客户端的字符集设定不同造成的。只要将两者修改一致就可以解决问题。
在windows里需要到注册表里local machine-software-oracle-home0里更改nls_lang,unix下需要在.profile或这.bash_profile(根据你用的shell)里更改nls_lang.
二)是我们在导入数据时提示字符集不匹配问题。(有些可以兼容的不用管)
解决方法目前我看到3种
1:)eXP/imp与sql*plus一样是客户端产品,因此他的字符集是由服务端的nls_lang所设定的。用exp导出备份的export file时,字符集的设定也被存放在export file里。这就是有些人在imp发生字符无法转换时更改export file文件头的原理。(相关内容可以看看http://chinaunix.net/forum/viewtopic.PHP?t=22352&highlight=字符)
2:) <=8.1
在imp之前执行SQL > create database character set US7ASCII
* create database character set US7ASCII
ERROR at line 1:
ORA-01031: insufficient privileges
---- 你会发现语句执行过程中,出现上述错误提示信息,此时不用理会,实际上ORACLE数据库的字符集已被强行修改为US7ASCII,接着用imp命令装载数据。等数据装载完成以后,shutdown 数据库,再startup 数据库,用合法用户登录ORACLE数据库,在sql>命令提示符下,运行select * from V$NLS_PARAMETERS,可以看到ORACLE数据库字符集已复原,这时再查看有汉字字符数据的表时,汉字已能被正确显示。
3:)用数据管道导入数据
这种方法我早期用过pb6的数据管道,将数据管道连接至需要导入导出的两个数据库进行数据传输,传输后中文显示没有问题。
4:)更该数据字典props$ >8.1
1. )Use SQL*Plus connect to database as user SYS
2. )Issue this below command
SQL> UPDATE PROPS$ SET VALUE$='xxx' WHERE NAME='NLS_CHARACTERSET';
3.) Shutdown database and restart it
最后添加一个关于字符集可以自动转换方面的(在imp时):
Warning You can't change character set of current database that have number of bits greater than the new one. For example,
我理解就是7-8 can,8-8ican,8-8cannot,8-7cannot
US7ASCII -> WE8ISO8859P1 => Can
TH8TISASCII -> US7ASCII => Cannot
WE8ISO8859P1 -> TH8TISASCII => Cannot
TH8TISASCII -> WE8ISO8859P1 => Can
US7ASCII -> TH8TISASCII => Can