1.每个文件如何知道该文件是大端还是小端格式?
文件的开头有两个字节:FEFF 大端
FFFE 小端 这两个字节叫零宽度非换行空格
2.Unicode可以编码世界上所有的字符
但是没有规定多少个字节表示一个字符(没有规定存储)。如果按照字符使用的最长的字节数来表示,就会造成存储上的浪费。
3.UTF-8是Unicode的一种使用方式。UTF-8是一种可变长的编码方式。使用1-6个字节表示一个字符。
一下是Unicode和UTF-8的对照表:
n | (十六进制) | (二进制)
---+-----------------------+------------------------------------------------------
1 | 0000 0000 - 0000 007F | 0xxxxxxx
2 | 0000 0080 - 0000 07FF | 110xxxxx 10xxxxxx
3 | 0000 0800 - 0000 FFFF |1110xxxx 10xxxxxx 10xxxxxx
4 | 0001 0000 - 0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
5 | 0020 0000 - 03FF FFFF | 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
6 | 0400 0000 - 7FFF FFFF | 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
如果一个文件是UTF-8格雀氏式的,可以选择是否添加BOOM头。
本来BOOM头存在的原因就是为了标识该文件是UTF-8编码裂岁大的。
BOOM头是指在文件开头有三个零宽度字符:efbbbf
4.ANSI编码格式就是GBK的编码格式
5.ASCII码 使用一个字节进行编码 128个字符 0-127 0x00-0x7F
6.GB2312是区位码,通过使用区号和位号来指定一个汉字
7.GBK总体编码范围为0x8140~0xFEFE,首字节在 0x81~0xFE 之间,尾字节在 0x40~0xFE 之间
编码格式是CP936 也是值GBK,因为微软Windows安排给GBK的CodePage 是CP936
在一个GBK编码的格式文件中数字和英文都是使用半角的,也就是使用一个字节进行编码。如果是全角的,就是使用两个字节进行编码。在读一个文件的时候,如果是GBK格式,读到的一个字节的首位是0,说明该字节是ASCII码。如果是1,说明该字节是GBK编码,使用两个字节表示一个汉字。
8.如何区分一个文件的编码方式:
1)有boom头,表示是UTF-8
2)无boom头,只能根据文肆竖本进行分析
9.UCS-2编码是指使用两个字节表示Unicode码,UCS-4是指使用4个字节表示Unicode码。
10.Unicode和GBK之间没有算法和规则进行转换,只能通过一个大表将二者关联起来。
经常看到打开的txt文件,显示一堆乱码,其实这是编码混乱引起的。下面我来讲讲如何更改txt文件编码的方法。
01首先,打开txt文档,点击“文件”,“另存为”。
02在另存为选项框,我们看粗纯孝到底部就有“编码”选项,点击下拉菜单,就能更改编码,更改完之后保存即可。
03另外一种方法,我们可以裤明用编码转换软件,搜狗搜索“Notepad2”,下载完之后安装,该软件有更多的编码格式可供选择。
04下载完之后,用该软件打开txt文档,如图所示,点击“文岩稿件”、“编码”,然后指定一种编码格式,比如我选择“UTF-8”,然后保存文档。
05再次用记事本打开,就可以看见该文档的编码已经转换了。
1、首先打开该TXT文本
2、打开文件之后,点击[文件]->[另存为]。
3、在d出的另存为对话框中,可以看到文件的编码格式。
4、如果想要修改文件的编码格式,可以通过显示编码格式的地方,下拉,选择你想要使用的编码;然后点击保存,即可生成另一个编码格式的文件。
扩展资料:
常见的编码格式有ASCII、ANSI、GBK、GB2312、UTF-8、GB18030和UNICODE等。对应的编码规则有单字节字符编码、ANSI编码和UNICODE编码等。
ANSI编码
把 UNICODE 字符串通过 ANSI 编码转化为“字节串”时,根据各自编码的规定,一个 UNICODE 字符可镇悔芹能转化成一个字节或多个字节。
反之,将字节串转化成字符串时,也可能多个字节转化成一个字符。比如,[0xD6, 0xD0] 这两个字节,通过 GB2312 转化为字符串时,御毕将得到 [0x4E2D] 一个字符,即 '中' 字。
ANSI 编码的特点:
1、这些“ANSI 编码标准”都只能处理各自语言范围之内前铅的 UNICODE 字符。
2、“UNICODE 字符”与“转换出来的字节”之间的关系是人为规定的。
参考资料来源:
百度百科-ansi编码
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)