现在大部分具有国际化特征的软件核心字符处理都是以Unicode为基础的,在软件运行时根据当时的ocale/Lang /Codepage设置确定相应的本地字符编码设置,并依此处理本地字符。在处理过程中需要实现Unicode和本地字符集的相互转换,甚或以 Unicode为中间的两个不同本地字符集的相互转换。这种方式在网络环境下被进一步延伸,任何网络两端的字符信息也需要根据字符集的设置转换成可接受的内容。
数据库中的字符集编码问题
流行的关系数据库系统都支持数据库字符集编码,也就是说在创建数据库时可以指定它自己的字符集设置,数据库的数据以指定的编码形式存储。当应用程序访问数据时,在入口和出口处都会有字符集编码的转换。对于中文数据,数据库字符编码的设置应当保证数据的完整性。GB2312、GBK、UTF-8等都是可选的数据库字符集编码当然我们也可以选择ISO8859-1(8-bit),只是我们得在应
用程序写数据之前先将16Bit的一个汉字或Unicode拆分成两个8-bit的字符,读数据之后也需要将两个字节合并起来,同时还要判别其中的SBCS 字符,因此我们并不推荐采用ISO8859-1作为数据库字符集编码。这样不但没有充分利用数据库自身的字符集编码支持,而且同时也增加了编程的复杂度。编程时,可以先用数据库管理系统提供的管理功能检查其中的中文数据是否正确。
PHP程序在查询数据库之前,首先执行 mysql_query("SETNAMESxxxx")其中xxxx是你网页的编码(charset=xxxx),如果网页中 charset=utf8,则xxxx=utf8,如果网页中charset=gb2312,则xxxx=gb2312,几乎所有WEB程序,都有一段连接数据库的公共代码,放在一个文件里,在这文件里,加入mysql_query("SETNAMESxxxx")就可以了。
SETNAMES 显示客户端发送的SQL语句中使用什么字符集。因此,SETNAMES'utf-8'语句告诉服务器“将来从这个客户端传来的信息采用字符集utf- 8”。它还为服务器发送回客户端的结果指定了字符集(例如,如果你使用一个SELECT语句,它表示列值使用了什么字符集)。
定位问题时常用的技巧
定位中文编码问题通常采用最笨的也是最有效的办法―在你认为有嫌疑的程序处理后打印字符串的内码。通过打印字符串的内码,你可以发现什么时候中文字符被转换成Unicode,什么时候Unicode被转回中文内码,什么时候一个中文字成了两个Unicode字符,什么时候中文字符串被转成了一串问号,什么时候中文字符串的高位被截掉了……
取用合适的样本字符串也有助于区分问题的类型。如:"aa啊aa?@aa"等中英相间,GB、GBK特征字符均有的字符串。一般来说,英文字符无论怎么转换或处理,都不会失真(如果遇到了,可以尝试着增加连续的英文字母长度)。
解决各种应用的乱码问题
1)使用标签设置页面编码
这个标签的作用是声明客户端的浏览器用什么字符集编码显示该页面,xxx可以为GB2312、GBK、UTF-8(和MySQL不同,MySQL是 UTF8)等等。因此,大部分页面可以采用这种方式来告诉浏览器显示这个页面的时候采用什么编码,这样才不会造成编码错误而产生乱码。但是有的时候我们会发现有了这句还是不行,不管xxx是哪一种,浏览器采用的始终都是一种编码,这个情况我后面会谈到。
请注意,是属于HTML信息的,仅仅是一个声明,仅表明服务器已经把HTML信息传到了浏览器。
2)header("content-type:text/htmlcharset=xxx")
这个函数header()的作用是把括号里面的信息发到http标头。如果括号里面的内容为文中所说那样,那作用和标签基本相同,大家对照第一个看发现字符都差不多的。但是不同的是如果有这段函数,浏览器就会永远采用你所要求的xxx编码,绝对不会不听话,因此这个函数是很有用的。为什么会这样呢?那就得说说http标头和HTML信息的差别了:
http标头是服务器以http协议传送HTML信息到浏览器前所送出的字串。而标签是属于 HTML信息的,所以header()发送的内容先到达浏览器,通俗点就是header()的优先级高于(不知道可不可以这样讲)。假如一个php页面既有header("content-type:text/htmlcharset=xxx"),又有,浏览器就只认前者http标头而不认meta了。当然这个函数只能在php页面内使用。
同样也留有一个问题,为什么前者就绝对起作用,而后者有时候就不行呢?这就是接下来要谈的Apache的原因了。
3)AddDefaultCharset
Apache根目录的conf文件夹里,有整个Apache的配置文档httpd.conf。
用文本编辑器打开httpd.conf,第708行(不同版本可能不同)有AddDefaultCharsetxxx,xxx为编码名称。这行代码的意思:设置整个服务器内的网页文件http标头里的字符集为你默认的xxx字符集。有这行,就相当于给每个文件都加了一行header("content- type:text/htmlcharset=xxx")。这下就明白为什么明明设置了是utf-8,可浏览器始终采用gb2312的原因。
如果网页里有header("content-type:text/htmlcharset=xxx"),就把默认的字符集改为你设置的字符集,所以这个函数永远有用。如果把AddDefaultCharsetxxx前面加个"#",注释掉这句,而且页面里不含header("content- type…"),那这个时候就轮到meta标签起作用了。
下面列出以上的优先顺序:
..header("content-type:text/htmlcharset=xxx")
..AddDefaultCharsetxxx
..
如果你是web程序员,建议给你的每个页面都加个header("content-type:text/htmlcharset=xxx"),这样就可以保证它在任何服务器都能正确显示,可移植性也比较强。
4)php.ini中的default_charset配置:
php.ini中的default_charset="gb2312"定义了php的默认语言字符集。一般推荐注释掉此行,让浏览器根据网页头中的charset来自动选择语言而非做一个强制性的规定,这样就可以在同台服务器上提供多种语言的网页服务。
结束语 参考:http://wsiyu.com/read.php?tid=1561
其实php开发中的中文编码并没有想像的那么复杂,虽然定位和解决问题没有定规,各种运行环境也各不尽然,但后面的原理是一样的。了解字符集的知识是解决字符问题的基础。不过,随着中文字符集的变化,不仅仅是php编程,中文信息处理中的问题还是会存在一段时间的。
PHP代码文件必须以 <?php 或 <?= 标签开始;PHP代码文件必须以 不带BOM的 UTF-8 编码;
PHP代码中应该只定义类、函数、常量等声明,或其他会产生 从属效应 的 *** 作(如:生成文件输出以及修改.ini配置文件等),二者只能选其一;
命名空间以及类必须符合 PSR 的自动加载规范:PSR-0 或 PSR-4 中的一个;
类的命名必须遵循 StudlyCaps 大写开头的驼峰命名规范;
类中的常量所有字母都必须大写,单词间用下划线分隔;
方法名称必须符合 camelCase 式的小写开头驼峰命名规范。
成功的 PHP 项目标准往往与以下几个方面有关:
功能实现:PHP 项目要能够实现其预期的功能,而且需要保证功能的稳定性、可靠性和性能等方面的表现。
代码质量:PHP 项目需要遵循良好的编码规范和设计模式,代码要易于维护和扩展,避免出现过多的重复代码和不必要的复杂性。
安全性:PHP 项目需要保证数据的安全性和防止恶意攻击,包括对输入的数据进行过滤和验证,对敏感数据进行加密和解密等等。
用户体验:PHP 项目需要提供良好的用户体验,包括界面的友好性、交互的流畅性、响应速度等等。
要保证 PHP 项目的成功,可以采取以下几种方式:
设定明确的目标和计划:在开始开发之前,需要明确项目的目标、预期成果和实现计划等,以确保项目的顺利进行。
遵循良好的开发流程:采用合适的开发流程,包括需求分析、设计、开发、测试和上线等,可以保证项目按照规划顺利进行。
坚持代码质量和安全性:在开发过程中,需要遵循良好的编码规范和设计模式,保证代码质量和安全性,并进行必要的测试和漏洞修复。
注重用户体验:在设计和开发过程中,需要注重用户体验,采用合适的界面设计和交互方式,提高用户的满意度和使用体验。
持续优化和改进:项目完成后需要对其进行持续的优化和改进,以提高功能和性能,加强安全性和用户体验,保持项目的长期稳定和发展。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)