文件编码方式

文件编码方式,第1张

https://blog.csdn.net/u013139008/article/details/79425520

1.每个文件如何知道该文件是大端还是小端格式?

文件的开头有两个字节:FEFF 大端

FFFE 小端 这两个字节叫零宽度非换行空格

2.Unicode可以编码世界上所有的字符

但是没有规定多少个字节表示一个字符(没有规定存储)。如果按照字符使用的最长的字节数来表示,就会造成存储上的浪费。

3.UTF-8是Unicode的一种使用方式。UTF-8是一种可变长的编码方式。使用1-6个字节表示一个字符。

一下是Unicode和UTF-8的对照表:

n | (十六进制) | (二进制)

---+-----------------------+------------------------------------------------------

1 | 0000 0000 - 0000 007F | 0xxxxxxx

2 | 0000 0080 - 0000 07FF | 110xxxxx 10xxxxxx

3 | 0000 0800 - 0000 FFFF |1110xxxx 10xxxxxx 10xxxxxx

4 | 0001 0000 - 0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

5 | 0020 0000 - 03FF FFFF | 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

6 | 0400 0000 - 7FFF FFFF | 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

如果一个文件是UTF-8格雀氏式的,可以选择是否添加BOOM头。

本来BOOM头存在的原因就是为了标识该文件是UTF-8编码裂岁大的。

BOOM头是指在文件开头有三个零宽度字符:efbbbf

4.ANSI编码格式就是GBK的编码格式

5.ASCII码 使用一个字节进行编码 128个字符 0-127 0x00-0x7F

6.GB2312是区位码,通过使用区号和位号来指定一个汉字

7.GBK总体编码范围为0x8140~0xFEFE,首字节在 0x81~0xFE 之间,尾字节在 0x40~0xFE 之间

编码格式是CP936 也是值GBK,因为微软Windows安排给GBK的CodePage 是CP936

在一个GBK编码的格式文件中数字和英文都是使用半角的,也就是使用一个字节进行编码。如果是全角的,就是使用两个字节进行编码。在读一个文件的时候,如果是GBK格式,读到的一个字节的首位是0,说明该字节是ASCII码。如果是1,说明该字节是GBK编码,使用两个字节表示一个汉字。

8.如何区分一个文件的编码方式:

1)有boom头,表示是UTF-8

2)无boom头,只能根据文肆竖本进行分析

9.UCS-2编码是指使用两个字节表示Unicode码,UCS-4是指使用4个字节表示Unicode码。

10.Unicode和GBK之间没有算法和规则进行转换,只能通过一个大表将二者关联起来。

经常看到打开的txt文件,显示一堆乱码,其实这是编码混乱引起的。下面我来讲讲如何更改txt文件编码的方法。

01

首先,打开txt文档,点击“文件”,“另存为”。

02

在另存为选项框,我们看粗纯孝到底部就有“编码”选项,点击下拉菜单,就能更改编码,更改完之后保存即可。

03

另外一种方法,我们可以裤明用编码转换软件,搜狗搜索“Notepad2”,下载完之后安装,该软件有更多的编码格式可供选择。

04

下载完之后,用该软件打开txt文档,如图所示,点击“文岩稿件”、“编码”,然后指定一种编码格式,比如我选择“UTF-8”,然后保存文档。

05

再次用记事本打开,就可以看见该文档的编码已经转换了。

1、首先打开该TXT文本

2、打开文件之后,点击[文件]->[另存为]。

3、在d出的另存为对话框中,可以看到文件的编码格式。

4、如果想要修改文件的编码格式,可以通过显示编码格式的地方,下拉,选择你想要使用的编码;然后点击保存,即可生成另一个编码格式的文件。

扩展资料:

常见的编码格式有ASCII、ANSI、GBK、GB2312、UTF-8、GB18030和UNICODE等。对应的编码规则有单字节字符编码、ANSI编码和UNICODE编码等。

ANSI编码

把 UNICODE 字符串通过 ANSI 编码转化为“字节串”时,根据各自编码的规定,一个 UNICODE 字符可镇悔芹能转化成一个字节或多个字节。

反之,将字节串转化成字符串时,也可能多个字节转化成一个字符。比如,[0xD6, 0xD0] 这两个字节,通过 GB2312 转化为字符串时,御毕将得到 [0x4E2D] 一个字符,即 '中' 字。

ANSI 编码的特点:

1、这些“ANSI 编码标准”都只能处理各自语言范围之内前铅的 UNICODE 字符。

2、“UNICODE 字符”与“转换出来的字节”之间的关系是人为规定的。

参考资料来源:

百度百科-ansi编码


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/12231569.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-22
下一篇 2023-05-22

发表评论

登录后才能评论

评论列表(0条)

保存