国标编码就是中华人民共和国信息交换汉字编码标准(GB2312-80),
在此标准中制定了每一个汉字及非汉字符号的编码。规定将汉字字符分为87个区,
每个区有94个汉字(94位),因此共制定了87x94=8178个汉字、字符。
每一个字符的编码由2个字节(Byte, 一个字节有8位--Bit, 可以有256种不同表示)构
成(分别称为高字节和低字节),其值分别为其区位码值各加上32(既16进制的
20H),方便起见把这称作国标码,则国标码所覆盖的范围为2121H-777EH,
如中国的“中”字位于54区48位,其国标码就是5650H。当想在由西方人发明的
计算机中使用汉字时,由于国标码的范围与计算机中使用的 ASCII 码(American Standard
Code for Information Interchange,美国信息交换标准码,只用了一个字节中的低7位,
范围是32-126这95个)重叠,无法分出哪个是中文哪个是西文,于是规定将国标码的高低
字节的最高位均置1(Set the MSB,相当于加上128--16进制的80H),来使之区分于
ASCII 码。这样,在计算机中使用的汉字编码实际上是真正的国标码的高位置1后的变形
码(以后称此码为 GB 码),编码范围是0A1A1H-0F7FEH,前面的“中”字
的 GB 码就是0D6D0H。
在国标中规定:
1区是标点符号及下列以外的各种符号
2区是各种各样的数字符号
3区是全角西文字符(英文字母,数字,符号等)
4区是日文平假名
5区是日文片假名
6区是希腊字母表
7区是俄文字母表
8区是中文拼音字母表
9区是制表符号
10区-15区目前空着备用,
16区-55区是按拼音字母排序的常用汉字(一级汉字)
56区-87区是按部首笔画排序的非常用汉字(二级汉字)
(区位码表)
HZ码是中国留学生为了使汉字信息能在网络上直接传送而产生的。因目前大多数
(西方)网络系统为7位,最高位被屏蔽掉,因此 GB 码无法被直接传输,HZ 码规定
一个~紧接着一个{标志着从此开始的代码是国标码,一直到遇到一个~后紧接着一个},
或本行结束为止。既利用国标码高字节(区)中没有的~(7EH),形成进入(Escape in)
--~{,及退出(Escape out)--~}标志,以达到在7位网络系统中直接传递汉字信息的目的。
此时真正的一个的~及后接{符号由两个连续的~~及后接{来表示。
Big5 码是在台湾和香港等地广为使用的计算机汉字编码方案,使用的是繁体字,
因最高位被置1,所以也不能直接在7位的网络系统中传输。
JIS 既 Japan Industry Standard(日本工业标准--同 GB 意思一样),
但目前在日本的计算机中使用的编码系统较为混乱,常用的有 JIS 码(与 HZ 码类似,
采用进入-退出标志方式),Shift-JIS 码(NEC个人计算机,即NEC98系列均采用此
种编码)和 EUC 编码(与 GB 码一样,采用高低字节最高位均置1来区别于 ASCII 码)
等几种方式,日本的网络系统规定在其上传输电子邮件用 JIS 编码。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)