JDK1.1的编码问题(转载自计算机世界)

精华区

当前位置：网易精华区>>讨论区精华>>编程开发>>● Java>>JAVA编程>>中文问题>>JDK1.1的编码问题(转载自计算机世界)

主题：JDK1.1的编码问题(转载自计算机世界)

发信人: hht()
整理人: hht(1999-03-11 11:16:03), 站内信件

用的是JDK多高版本?如果是applet,在什么浏览器中运行?做什么?我估计是从外部读数据吧.如果和数据库连,据我所知NS4是没问题的.IE可以用强制转换来实现.下面这篇文章摘自computerworld site,希望对你有帮助:

JDK1.1 中的编码问题
──谈Java 中GB 码与Unicode 码的转换
徐绿兵
电子部信息化工程总体研究中心
地址：北京9716 信箱105 分箱 100101
E-mail: [email protected]

--------------------------------------------------------------------------------

一、Java 引进Unicode 带来的问题
         Java 从诞生之日起，就考虑了国际化问题，char 数据类型为16 位就是明证。Java 的char 类型是为存放Unicode 码设计的，但JDK1.0 中只是引进了Unicode 这个概念，并没有对Unicode 全面支持，以至于Java 程序员觉得Java 中的char 类型与 C 语言中8 位的char 没有什么不同，只是浪费空间而已。
         JDK1.1 是Java 对国际化全面支持的开始。JDK1.1 为支持Unicode 而改动或增加了很多类：对I/O 类库做了较大的改动，除了原来基于字节的流(stream) 库外，增加了基于字符的流库（Reader 和Writer 系列）；增加了Unicode 与各种编码的转换类，如与GB2312 的转换。这样Java 实现了内部编码(native encoding) 和Unicode 的统一。

         如果Java 程序仅仅用于处理英文，那么Java 的Unicode 的内部统一对原来用 JDK1.0 所编的程序可以说没有什么影响。因为Unicode 码是ASCII 码的一个超集。而对用于处理汉字的Java 程序的影响是很大的。如下面的一个程序在中文Windows95 环境下分别用JDK1.0 和JDK1.1 编译执行的结果是不同的( 以下所有程序都是针对中文Windows95/NT 的)：

Test1.java 源程序：
public class Test1{
    final static String s = " 汉字";
    public static void main(String args[]){
        System.out.println("Length of "+s+" is "+s.length());
    }
}
         用JDK1.0 编译执行的结果是：
         Length of 汉字 is 4

         用JDK1.1 编译执行的结果是：

         Length of 汉字 is 2

         而该程序用JDK1.0 编译再用JDK1.1 执行或反过来则汉字的显示是难以预料的。

         再看一个例子，预先编辑一个数据文件，包含“ 汉字” 两个字，取名叫 Test.dat。Test2.java 的作用是把数据从文件中读出来，然后打印在屏幕上：

Test2 源程序：
import java.io.*;
public class Test2{
    public static void main(String args[]){
        try{
            FileInputStream fis = new FileInputStream("Test.dat");
            int len = fis.available();
            byte[] b = new byte[len];
            String s = new String(b, 0);
            System.out.println(s);
            fis.close();
        }catch(IOException e){
        }
    }
}
         这个程序在JDK1.0 下编译运行是可以正确显示“ 汉字” 两个字的。但在JDK1.1 下编译会出现“-deprecation” 的警告，运行结果则是“?? ×?”，已经面目全非了。
二、分析
         Test1 和Test2 在不同的JDK 下会有不同的结果正是JDK1.1 引进了Unicode 造成的。在Test1.java 中，同样是字符串“ 汉字”，它的内码共4 个字节，用JDK1.0 编译后变成String 对象s 时只是把每个字节用一个Java 的char 存放，char 的高8 位为0，所以长度显示为4；而用JDK1.1 编译后变成String 对象s 时是分别把每个汉字转成了对应的 Unicode 码，并存放在一个char 中，所以长度显示为2。
         但为什么一个s 是4 个char，而另一个是2 个char 且是Unicode，却都能在屏幕上正确地显示出“ 汉字” 两个字呢？

         由于JDK1.0 只是把汉字内码的单字节扩展为双字节，本质上并没有变，所以汉字能正确显示是不难理解的；而在JDK1.1 下字符串是Unicode，它向屏幕输出时又做了从Unicode 向本地操作系统编码（在我们的例子中就是GB 码）的转换，于是仍能打印出正确的字。事实上，即使是英文字符的显示，这种字符与Unicode 的相互转换仍然存在，只是由于它们的对应关系简单（只是字节数的扩展或缩减），我们不易察觉罢了。JDK1.1 做这种转换的目的就是使世界上所有的平台在Java 虚拟机中统一为一种码 — —Unicode 码。

         上一段已经说过JDK1.1 在显示时会做从Unicode 到本地编码的转换，因此用JDK1.1 执行Test2 时，System.out.println(s) 语句的执行同样有从Unicode 到GB 码的转换。但String s = new String(b, 0) 语句只是扩展了字节，因此s 中仍可以认为是GB 码。而JDK1.1 却把s 当作Unicode 字符串看待，并机械地对s 做了从Unicode 码到GB 码转换，这一转换导致了最终结果中出现了很多“?”（这是在转换过程中未发现相应编码所用的替换符号）。下面的改进程序可以在JDK1.1 下正确显示Test2.dat 的内容（说明见注释）。

import java.io.*;
public class Test3{
    public static void main(String args[]){
        try{
            FileInputStream fis = new FileInputStream("Test.dat");
            int len = fis.available();
            byte[] b = new byte[len];
            fis.read(b);
            String s = new String(b);// 做了从GB 到Unicode 的转换
            System.out.println(s);   // 做了从Unicode 到GB 的转换
            fis.close();
        }catch(IOException e){
        }
    }
}
三、用JDK1.1 开发汉字处理应用程序应注意的问题
         如果仅仅把汉字用作显示提示信息，并不需要关心Java 虚拟机(JVM) 对各种编码间的相互转换。但如果汉字是处理的对象，或者提示信息用汉字是从文件中获得的，那就要注意用合适的类或方法了。以下两个原则可供参考：
         1、JVM 内部统一用Unicode 码。如果这样，那么所有与I/O 打交道的类都应该用基于字符的类(Reader/Writer 系列)，这可以使Unicode 与本地编码的转换由JVM 自动进行。如 Test3 中读文件内容仍用了基于字节的流类FileInputStream，而从字节转换为字符串对象 s 时不用不能转换成Unicode 的构造方法String(b, 0)，而用了能转换成Unicode 的构造方法String(b)，这需要程序员心中有数，什么时候用什么方法。如统一用基于字符的类，程序员就可免去注意这种额外的技术细节。如下面Test4 与Test3 在JDK1.1 下有同样的效果。

import java.io.*;
public class Test4{
    public static void main(String args[]){
        try{
            FileReader fr = new FileReader("Test.dat");// 基于字符的流
            char[] c = new char[2];
            fr.read(c);              // 做了从GB 到Unicode 的转换
            String s = new String(c);
            System.out.println(s);   // 做了从Unicode 到GB 的转换
            fr.close();
        }catch(IOException e){
        }
    }
}
         2 、JVM 内部统一用GB 码。这可需要程序员注意采用合适的方法，程序员必须了解哪些方法会做转换，哪些不做转换，必要时还要调用合适的方法做额外的转换，以达到JVM 内部是GB 码的统一。应该说这是一种笨拙的方法。但由于基于GB 码的程序很多，在程序移植比较困难时仍可采用。下面介绍如何显式调用方法进行Unicode 与GB 的转换:
         1)GB 转换为Unicode( 主要用于将汉字显示出来):

GB 码汉字串存放在字节数组中，要转换成Unicode 字符串可用String 类的String(byte[]) 构造方法。Test3 中已经用了这个方法。

GB 码汉字串存放在String 对象中，转换成Unicode 字符串，可用下面的程序段：
         String chinese, unicode;// 存放汉字串和结果字符串
       :
      try{
          byte[] b =
chinese.getBytes("8859_1");// 把汉字串看作英文，无转换
          unicode = new String(b, "GB2312");// 或unicode = new String(b);
      }catch(UnsupportedEncodingException e){
      }
         上面的方法显式使用了编码的名字，如"8859_1" 和"GB2312"。用"8859_1" 是一个小技巧，这是为了告诉JVM 字符串对象chinese 中存放的是西文，由于西文与Unicode 的对应关系只是字节扩展，所以字节数组b 中的内容与chinese 中的一样。
         JDK1.1 中的String 类提供了一些需要编码名字的方法。缺省情况下为操作系统使用的编码。上面的方法是巧用编码名字的一例。

         2)Unicode 转换为GB( 主要用于汉字处理):

         如unicode 为一String 对象，取出汉字可以用下面的方法:

         byte[] b = unicode.getBytes("GB2312");// 或b =
unicode.getBytes();
      理由同上。
四、结束语
         用JDK1.1 重新编译原来在JDK1.0 下书写的Java 程序有时会出现“deprecation” 的警告信息，出现这类警告的方法在JDK1.1 的API 文档中会标出“deprecated”，即不赞成使用的方法。deprecation 警告一类是与新的包java.awt 有关，另一类与编码转换有关。使用 deprecated 方法可以不受编码转换的困扰，但编译警告总不是令人愉快的。

如果还不行,可以将源代码发给我,并告知运行环境,如果可能,我可以帮你试一试.
Good Luck.

--
☆ 来源:．广州网易BBS站 bbs.nease.net．[FROM: 202.97.228.241]

[关闭][返回]