Node.js的Buffer与字符编码及转换

Node.js的Buffer与字符编码及转换,第1张

Buffer实例一般用于表示编码字符的序列,如UTF-8、UCS2、Base64或十六进制编码的数据。通过使用显式的字符编码就可以在Buffer实例与普通的JavaScript字符串之间进行相互转换。

Nodejs目前支持的字符编码包括:

●    ascii:仅支持7位ASCII数据。如果设置去掉高位的话,那么这种编码是非常快的。

●    utf8:多字节编码的Unicode字符。许多网页和其他文档格式都使用UTF-8。

●    utf16le:2或4个字节,小端序编码的Unicode字符,支持代理对(U+10000 ~ U+10FFFF)。

●    ucs2:utf16le的别名。

●    base64:Base64编码。

●    latin1:一种把Buffer编码成一字节编码的字符串的方式。

●    binary:latin1的别名。

●    hex:将每个字节编码为两个十六进制字符。

<SCRIPT LANGUAGE="JavaScript">

var aa="asd,sdf,asdf,asd,asdfasd";

alert(aalength-aareplace(/,/g,'')length);

</SCRIPT>

JavaScript

介绍:

JavaScript是一种基于对象和事件驱动并具有相对安全性的客户端脚本语言。同时也是一种广泛用于客户端Web开发的脚本语言,常用来给HTML网页添加动态功能,比如响应用户的各种 *** 作。它最初由网景公司(Netscape)的Brendan Eich设计,是一种动态、弱类型、基于原型的语言,内置支持类。JavaScript是Sun公司的注册商标。Ecma国际以JavaScript为基础制定了ECMAScript标准。JavaScript也可以用于其他场合,如服务器端编程。完整的JavaScript实现包含三个部分:ECMAScript,文档对象模型,字节顺序记号。

Netscape公司在最初将其脚本语言命名为LiveScript。在Netscape在与Sun合作之后将其改名为JavaScript。JavaScript最初受Java启发而开始设计的,目的之一就是“看上去像Java”[2],因此语法上有类似之处,一些名称和命名规范也借自Java。但JavaScript的主要设计原则源自Self和Scheme[3]。JavaScript与Java名称上的近似,是当时网景为了营销[1]考虑与Sun公司达成协议的结果。为了取得技术优势,微软推出了JScript脚本语言。Ecma国际(前身为欧洲计算机制造商协会)创建了ECMA-262标准(ECMAScript)。现两者都属于ECMAScript的实现。尽管JavaScript作为给非程序人员的脚本语言,而非是作为给程序人员的编程语言来推广和宣传,但是JavaScript具有非常丰富的特性。

一般来说英文是1个,中文是两个。但是会根据编码方式不同而不同。以下是搬运:

英文字母和中文汉字在不同字符集编码下的字节数

英文字母:

字节数 : 1;编码:GB2312

字节数 : 1;编码:GBK

字节数 : 1;编码:GB18030

字节数 : 1;编码:ISO-8859-1

字节数 : 1;编码:UTF-8

字节数 : 4;编码:UTF-16

字节数 : 2;编码:UTF-16BE

字节数 : 2;编码:UTF-16LE

中文汉字:

字节数 : 2;编码:GB2312

字节数 : 2;编码:GBK

字节数 : 2;编码:GB18030

字节数 : 1;编码:ISO-8859-1

字节数 : 3;编码:UTF-8

字节数 : 4;编码:UTF-16

字节数 : 2;编码:UTF-16BE

字节数 : 2;编码:UTF-16LE

ava的数据类型分为三大类,即布尔型、字符型和数值型,而其中数值型又分为整型和浮点型;相对于数据类型,Java的变量类型为布尔型boolean;字符型char;整型byte、short、int、long;浮点型float、double。其中四种整型变量和两种浮点型变量分别对应于不同的精度和范围。此外,我们还经常用到两种类变量,即String和Date。对于这些变量类型之间的相互转换在我们编程中经常要用到,下面是几种相互转化的关系:

一、 整型、实型、字符型变量中的相互转换

在Java中整型、实型、字符型被视为同一类数据,这些类型由低级到高级分别为(byte,short,char)——int——long——float——double,低级变量可以直接转换为高级变量,例如,下面的语句可以在Java中直接通过:

byte b;

int i=b;

而将高级变量转换为低级变量时,情况会复杂一些,你可以使用强制类型转换。即你必须采用下面这种语句格式:

int i;

byte b=(byte)i;

可以想象,这种转换肯定可能会导致溢出或精度的下降,因此我们并不推荐使用这种转换。

二、Java的包装类

在我们讨论其它变量类型之间的相互转换时,我们需要了解一下Java的包装类,所谓包装类,就是可以直接将简单类型的变量表示为一个类,在执行变量类型的相互转换时,我们会大量使用这些包装类。Java共有六个包装类,分别是Boolean、Character、Integer、Long、Float和Double,从字面上我们就可以看出它们分别对应于 boolean、char、int、long、float和double。而String和Date本身就是类。所以也就不存在什么包装类的概念了。

三、简单类型变量和包装类之间的相互转换

简单类型的变量转换为相应的包装类,可以利用包装类的构造函数。即:

Boolean(boolean value)、Character(char value)、Integer(int value)、Long(long value)、Float(float value)、Double(double value)

而在各个包装类中,总有形为××Value()的方法,来得到其对应的简单类型数据。利用这种方法,也可以实现不同数值型变量间的转换,例如,对于一个双精度实型类,intValue()可以得到其对应的整型变量,而doubleValue()可以得到其对应的双精度实型变量。

四、String类和其它数据类型的相互转换

对于上面的这些包装类,除了Character以外,都有可以直接使用字符串参数的构造函数,这也就使得我们将String类转换为这些数据类型变得相当之简单,即:

Boolean(String s)、Integer(String s)、Long(String s)、Float(String s)、Double(String s)

而将String类转换为Date类也可以使用这样的构造函数:Date(String s)

现在我们还剩下一个字符型变量,事实上String类可以理解为一个char型数组,因此我们可以在String类中找到这样的方法来实现这种转换:charAt(int index)可以得到String类中某一位置上的字符,toCharArray()更可以将整个String类转换成一个char的数组。

对于所有的包装类都存在一个名为toString()的方法可以将其转换成对应的String类,而对于整型类和长整型类,还可以使用toBinaryString(int i)、toHexString(int i)、toOctalString(int i)分别以二进制、十六进制和八进制的形式进行到String类的转换。

五、将字符型直接做为数值转换为其它数据类型

将字符型变量转换为数值型变量实际上有两种对应关系,在我们在第一部分所说的那种转换中,实际上是将其转换成对应的ASCII码,但是我们有时还需要另一种转换关系,例如,‘1’就是指的数值1,而不是其ASCII码,对于这种转换,我们可以使用Character的getNumericValue(char ch)方法。

六、Date类与其它数据类型的相互转换

整型和Date类之间并不存在直接的对应关系,只是你可以使用int型为分别表示年、月、日、时、分、秒,这样就在两者之间建立了一个对应关系,在作这种转换时,你可以使用Date类构造函数的三种形式:

Date(int year, int month, int date):以int型表示年、月、日

Date(int year, int month, int date, int hrs, int min):以int型表示年、月、日、时、分

Date(int year, int month, int date, int hrs, int min, int sec):以int型表示年、月、日、时、分、秒

在长整型和Date类之间有一个很有趣的对应关系,就是将一个时间表示为距离格林尼治标准时间1970年1月1日0时0分0秒的毫秒数。对于这种对应关系,Date类也有其相应的构造函数:Date(long date)

获取Date类中的年、月、日、时、分、秒以及星期你可以使用Date类的getYear()、getMonth()、getDate()、getHours()、getMinutes()、getSeconds()、getDay()方法,你也可以将其理解为将Date类转换成int。

而Date类的getTime()方法可以得到我们前面所说的一个时间对应的长整型数,与包装类一样,Date类也有一个toString()方法可以将其转换为String类。

解决方法是在输入后放一层过滤器转码,输出时在放一个另一个过滤器,这样,每当有其他移植时,直接改变过滤器的代码就可以了。

过滤器代码如下

public static String SyConvertCode(String tempSql){

if (tempSql==null)

tempSql="";

else

tempSql = tempSqltrim();

String returnString = tempSql;

try{

// byte[] ascii=returnStringgetBytes("GBK");

// returnString =new String(ascii,"ISO-8859-1");

byte[] ascii=returnStringgetBytes("ISO-8859-1");

returnString =new String(ascii,"GBK");

}catch(Exception e){

eprintStackTrace();

}

return returnString;

}

如果其中有英文、数字、符号等,用alert("1sS#符"length) 方法是极度不准确的。其结果为 5

alert(len("1sS#符")) //英文、数字、符号均为一个字节,汉字为两个。 因此结果为 6

function len(s) {

var l = 0;

var a = ssplit("");

for (var i=0;i<alength;i++) {

if (a[i]charCodeAt(0)<299) {

l++;

} else {

l+=2;

}

}

return l;

}

在纯ascii码下,字节数=字符串长度=字符个数,因为每个字符就一个字节。

在unicode下,字节数/2=字符串长度=字符个数,因为每个字符都是2个字节。

在ascii码与其它双字节字符系统混用时,字节数=ascii码字符个数+双字节字符个数2,而此时字符串长度到底怎么统计就不好说了,有的语言如c语言,此时字符串长度=字节数,有的语言如js,此时字符产长度=字符个数。

以上就是关于Node.js的Buffer与字符编码及转换全部的内容,包括:Node.js的Buffer与字符编码及转换、js中字符串的某个字符的个数怎么统计、javascript中一个字符占几个字节等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/10053243.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-04
下一篇 2023-05-04

发表评论

登录后才能评论

评论列表(0条)

保存