具体依据汉字编码形式有所不同:
GB-231280
编码为
2个字节(Byte)
包含了
20902
个汉字,其编码范围是
0x8140-0xfefe。
GB18030-2000(GBK2K)
在
GBK
的基础上进一步扩展了汉字,增加了藏、蒙等少数民族的字形。编码是变长的,其二字节部分与
GBK
兼容;四字节部分是扩充的字形、字位,其编码范围是首字节
0x81-0xfe、二字节0x30-0x39、三字节
0x81-0xfe、四字节0x30-0x39
Unicode
范围一般所用为\U0000-\UFFFF,对于CJK
EXT
B区汉字,范围大于\U20000
UTF,
按其基本长度所用位数分为UTF-8/16/32。其中:
UTF-8是变长编码,每个Unicode代码点按照不同范围,可以有1-3字节的不同长度。
UTF-16长度相对固定,只要不处理大于\U200000范围的字符,每个Unicode代码点使用16位即2字节表示,超出部分使用两个UTF-16即4字节表示。按照高低位字节顺序,又分为UTF-16BE/UTF-16LE。
UTF-32长度始终固定,每个Unicode代码点使用32位即4字节表示。按照高低位字节顺序,又分为UTF-32BE/UTF-32LE。
一个字节为8位。
字节是计算机信息技术用于计量存储容量的一种计量单位,也表示一些计算机编程语言中的数据类型和语言字符。
数据存储是以“字节”(Byte)为单位,数据传输是以大多是以“位”(bit,又名“比特”)为单位,一个位就代表一个0或1(即二进制),每8个位(bit,简写为b)组成一个字节(Byte,简写为B),是最小一级的信息单位。
换算
信息存储量是度量存储器存放程序和数据的数量。其主要度量单位是字节,1个字节(Byte)等于8位(b)二进制。位(bit,Binary Digits):存放一位二进制数,即0或1,为最小的存储单位,8个二进制位为一个字节单位。一个英文字母(不分大小写)占一个字节的空间,一个中文汉字占两个字节的空间。英文标点占一个字节,中文标点占两个字节。
1字=2字节
1字节由8位二进制组成
所以1字=2*8=16位
计算机中的一个汉字码由两个字节(16bits) 组成.
至于数值等于几,要看编码类型和方法.
例如,国标GB2312,国标GBK,大五码,unicode 小端码,unicode 大端码,HZ码
还有他们的传输形式,html 十六进制码,html 十进制码,UTF-8, UTF-16 等.
计算机中的一个汉字字体的存放很复杂,字体有向量形式,点阵形式,占的存放单元大小变化很大.二进制数值内容与字的刻痕痕迹有关,千变万化.
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)