文件编码方式

文件编码方式,第1张

https://blog.csdn.net/u013139008/article/details/79425520

1.每个文件如何知道该文件是大端还是小端格式?

文件的开头有两个字节:FEFF 大端

FFFE 小端 这两个字节叫零宽度非换行空格

2.Unicode可以编码世界上所有的字符

但是没有规定多少个字节表示一个字符(没有规定存储)。如果按照字符使用的最长的字节数来表示,就会造成存储上的浪费。

3.UTF-8是Unicode的一种使用方式。UTF-8是一种可变长的编码方式。使用1-6个字节表示一个字符。

一下是Unicode和UTF-8的对照表:

n | (十六进制) | (二进制)

---+-----------------------+------------------------------------------------------

1 | 0000 0000 - 0000 007F | 0xxxxxxx

2 | 0000 0080 - 0000 07FF | 110xxxxx 10xxxxxx

3 | 0000 0800 - 0000 FFFF |1110xxxx 10xxxxxx 10xxxxxx

4 | 0001 0000 - 0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

5 | 0020 0000 - 03FF FFFF | 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

6 | 0400 0000 - 7FFF FFFF | 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

如果一个文件是UTF-8格雀氏式的,可以选择是否添加BOOM头。

本来BOOM头存在的原因就是为了标识该文件是UTF-8编码裂岁大的。

BOOM头是指在文件开头有三个零宽度字符:efbbbf

4.ANSI编码格式就是GBK的编码格式

5.ASCII码 使用一个字节进行编码 128个字符 0-127 0x00-0x7F

6.GB2312是区位码,通过使用区号和位号来指定一个汉字

7.GBK总体编码范围为0x8140~0xFEFE,首字节在 0x81~0xFE 之间,尾字节在 0x40~0xFE 之间

编码格式是CP936 也是值GBK,因为微软Windows安排给GBK的CodePage 是CP936

在一个GBK编码的格式文件中数字和英文都是使用半角的,也就是使用一个字节进行编码。如果是全角的,就是使用两个字节进行编码。在读一个文件的时候,如果是GBK格式,读到的一个字节的首位是0,说明该字节是ASCII码。如果是1,说明该字节是GBK编码,使用两个字节表示一个汉字。

8.如何区分一个文件的编码方式:

1)有boom头,表示是UTF-8

2)无boom头,只能根据文肆竖本进行分析

9.UCS-2编码是指使用两个字节表示Unicode码,UCS-4是指使用4个字节表示Unicode码。

10.Unicode和GBK之间没有算法和规则进行转换,只能通过一个大表将二者关联起来。

编码很多....

二进制编码,数据前行渣文件一般都用这个格式.当然,还会使用一些加密方式.

ASCII,主要是字母,字符

GB2312,简体汉字.

GBK,Windows

95就是以GBK为内码,又由于GBK同时慧悄也涵盖了Unicode所有CJK汉字.

BIG5,又称为大五码或五大码,是使用繁体中文(正体中文)社群中最常用的电脑汉字字带友符集标准,共收录13060个汉字.

UTF8,UTF16,UTF32,写网页的时候常用.

主要就是这些.


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/12303567.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-24
下一篇 2023-05-24

发表评论

登录后才能评论

评论列表(0条)

保存