C语言读取UTF-8文本

英文参考文献 • 2023-4-12 • 教程 • 阅读 11

UTF-8是一种多字节编码字符集，Unicode字符，也可以是一个字节，符号：

1个字节：0XXXXXXX

2个字节：110XXXXX 10XXXXXX />3个字节： 1110XXXX 10XXXXXX 10XXXXXX

4个字节：11110xxx 10XXXXXX 10XXXXXX 10XXXXXX

本文根据上面的字符串遍历的特点来确定一个字符串是否是UTF-8编码。应当注意的是，每个字节的UTF-8字符串的值具有一定的范围，而不是所有的值？是有效的UTF-8字符，但在一般应用足够长的字符串判断的情况下，更准确，是实现比较简单。具体的字节范围，可以发现在这本书的“Unicode解释”6.4.3。

布尔IsUTF8（const void *的pbuffer的，长尺寸）

{

布尔IsUTF8 = TRUE

unsigned char型*开始=（无符号字符*）pbuffer的/无符号的char *结束=（unsigned char型）pbuffer的+大小

（起点和终点）

{

（*开始<0X80）/ /（10000000）：值小于0x80的ASCII的字符

{

开始+ +

}

否则，如果（*启动<（0XC0））/ /（11000000）：值吗？ 0XC0之间的范围0x80无效的UTF-8字符

{

IsUTF8 = FALSE

突破

}

否则，如果（*开始（0XE0））/在2个字节的UTF-8字符/（11100000）：

{

（开始>=结束 - 1）

突破

（（开始[1]（0XC0））= 80H时）

{

IsUTF8 = FALSE

突破

}

开始+ = 2

}

否则，如果（*启动<（31:8））/ /（11110000）：结束的3个字节的UTF-8字符

{

（“开始”>= - 2）

突破。 .. />（（开始[1]（为0xC0））= 0x80的| |（启动[2]（为0xC0））= 80H时）

{

IsUTF8 = FALSE

休息

}

开始+ = 3

}

{

IsUTF8 = FALSE

突破

}

}

回报IsUTF8

}

UTF-UCS编码的16至16个单位。小于0x10000的UCS码，UTF-16编码是等于相应的UCS代码的16位无符号整数。对于不小于0x10000的UCS码，定义了一个算法。然而，实际使用的UCS2，或者UCS4的BMP必然小于0x10000，所以现在你可以认为UTF -16和UCS-2基本相同。 UCS-2是一种编码方案，UTF-16已被用于实际的传输，所以我们要考虑的字节顺序。

1.windows上默认使用的是 GBK，所以处理UTF8稍微麻烦点，甚至都不能直接显示utf8.

2.任何文件都是二进制数据。

3.将文件读取到的字节数组 byte[] C++里面实际上是 unsigned char[]类型，使用windows api里面的一个函数进行转换，转换成unicode 也就是 wchar_t的字符数组 —— MultiByteToWideChar

4.对于wchar_t的字符，可以直接显示，也可以直接使用，因为基本上所有 *** 作系统都支持这种编码。

5.如果需要使用GBK的字符编码数组，那么使用上面函数的另一个兄弟函数——WideCharToMultiByte

提示：Windows MFC里面的字符串 CStringA CAtlStringA 这些都是基于GBK的

如果用CStringA保存UTF8的编码，直接输出会乱码，所以避免混淆，应该使用std::string 保存 utf8

std::wstring保存 unicode。而CStringA只在调用系统API的时候临时使用而已，而不作为长久数据保存于系统中。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/tougao/7980318.html

字节字符字符串如果的是

打赏

微信扫一扫

支付宝扫一扫

英文参考文献一级用户组

手机哔哩哔哩的文件在哪个文件夹里？

上一篇 2023-04-12

怎么用bat创建一个txt文件然后在txt里面编写内容

下一篇 2023-04-12

发表评论

登录后才能评论

评论列表（0条）