发信人: wenbobo()
整理人: wenbobo(2002-12-22 01:27:57), 站内信件
|
发信人: bluesea (蓝海), 信区: Internet
标 题: 乱码大全(22)──其它汉字乱码
发信站: BBS 水木清华站 (Tue Apr 14 15:21:44 1998)
乱码大全(22)──其它汉字乱码
“乱码大全”,作者:bluesea,水木清华BBS成员。欢迎在 BBS中转载,帮
助计算机初学者解决使用软件过程中遇到的实际问题。本文原载于水木清华 BBS
的 Internet讨论区。地址是: telnet://bbs.tsinghua.edu.cn ,WWW访问的地
址是 http://bbs.tsinghua.edu.cn 。当下面的条件全部满足时,转载本文可以
不经过作者允许:(1) 转载水木清华 BBS 的信头;(2)不修改原文;(3) 转载仅
限于各种 BBS 和非商业性质的个人网点。 严禁各种形式的抄袭,严禁非作者将
本文或局部用于任何正式出版的刊物。本自然段是全文的一部分。
[email protected]
汉字编码在计算机发展史上的应用和演变十分复杂。有些知识的获得是得益
于各个搜索系统,如 Yahoo! ( http://www.yahoo.com )、Exicte
( http://www.excite.com )、番薯藤( http://home.yam.org.tw/ )
等,以及那些在 internet 上流传的中文软件。如:
http://ftpsearch.ntnu.no/cgi-bin/search?query=chcode.zip
http://ftpsearch.ntnu.no/cgi-bin/search?query=mvconv.zip
http://ftpsearch.ntnu.no/cgi-bin/search?query=gbucscns.zip
http://www.ifcss.org/software
我们前面讨论过的汉字编码,不算 MIME 等通用二进制编码,包括了:国标
(GB 2312-80)、BIG5、Hanzi(HZ)、 EHaizi、Unicode、UTF-7、UTF-8、日文EUC、
日文JIS、日文Shift-JIS(SJIS) 和 韩文(KSC)、还讨论了 HTML 欧洲字符表示、
高位丢失等与汉字乱码的关系。
还有一些我们暂时还没有涉及到,其中的有些在现在的应用中比较少见,还
有些和上面的编码还有一定的关系。这些编码包括:IBM 5550、IBM HOST、TCA、
EUC(非日文EUC)、Telegraph、NSC Internal code、NSC with Protocol 等等。
这些编码的转换可以由 chcode(地址见上面) 转换程序得到。 其中通过 EUC 编
码的数据再进行 HZ 编码,我们就会得到在编码上和 EHZ 很相似的码。
我们尚未提到的编码还有台湾的 CNS-11643(它的转换可参见 gbucscns.zip
中 readme 文档的叙述,RichWin for Internet 也支持这种编码的转换)。另外,
随着 PWindows 的使用,GBK 大字符集的运用也会带来新的问题。如一些新收编
的汉字(如金字旁的容:“镕”,在 Pwindows 95中需要从控制面板安装 GBK 全
拼输入法进行输入)不能为老的系统显示、处理和转换等等。
乱码的讨论和例子并不能提供乱码类型的自动判断,有些编码是有一定特征
的,还有些没有明显特征的罕见编码,只能通过试验的方法进行。《乱码大全》
试图对这一类问题提供一个参考。希望朋友们提一些意见或建议,主要是为了修
改可能的错误,充实和完善内容。这个系列文章可能有续篇或原文的新版本,如
有都会先出现在水木清华 BBS的 Internet 板。
--
上帝创造猫,是为了让人类体验抚摸老虎的快乐。
※ 来源:·BBS 水木清华站 bbs.net.tsinghua.edu.cn·[FROM: 202.112.145.96]
|
|