Sep 18

PHP中文乱码根源:字符集的知识与解决之道 晴

, 08/09/18 17:33 , 技术开发 » PHP , 评论(0) , 引用(0) , 阅读(2367) , Via 本站原创 | |
作为PHP(JSP)程序员肯定会遇到中文乱码问题,甚至不止一次的遇到,问题千奇百怪!又一次遇到乱码问题,这下不得不花点时间好好研究字符集的知识。因为它是解决字符问题的基础。
世界各国(或区域)都规定了计算机信息交换用的字符编码集,
常见的有:美国的扩展 ASCII 码, 中国的 GB2312-80,日本的 SHIFT_JIS 等。
但字符编码集按长度分为 Array,Array两大类。
早期的软件(尤其是操作系统),为了解决本地字符信息的计算机处理,出现了各种本地化版本(L10N),为了区分,引进了 LANG, Codepage 等概念。
但是由于各个本地字符集代码范围重叠,相互间信息交换困难;软件各个本地化版本独立维护成本较高。
因此有必要制定国际化(118N)标准来统一大业。各种语言信息被进一步规范为 Locale 信息。
处理的底层字符集变成了几乎包含了所有字形的 Array。

现在大部分具有国际化特征的软件核心字符处理都是以 Unicode 为基础的,在软件运行时根据当时的ocale/Lang/Codepage 设置确定相应的本地字符编码设置,并依此处理本地字符。在处理过程中需要实现 Unicode 和本地字符集的相互转换,甚或以 Unicode 为中间的两个不同本地字符集的相互转换。这种方式在网络环境下被进一步延伸,任何网络两端的字符信息也需要根据字符集的设置转换成可接受的内容。

Array

流行的关系数据库系统都支持数据库字符集编码,如php的黄金搭档:Mysql,就可以指定的编码形式存储。
当应用程序访问数据时,在入口和出口处都会有字符集编码的转换。
对于中文数据,数据库字符编码的设置应当保证数据的完整性。GB2312、GBK、UTF-8 等都是可选的数据库字符集编码。
目前常用:GB2312、UTF-8。昨晚用ajax测试就出现了乱码,页面GB2312、数据库UTF-8。

PHP 程序在查询数据库之前,首先执行 mysql_query("SET NAMES xxxx");
其中 xxxx 是你网页的编码(charset=xxxx):
如,网页中 charset=utf8,则 xxxx=utf8;
网页中 charset=gb2312,则xxxx=gb2312。这个通常会写在公共类中,在这文件里,加入 mysql_query("SET NAMES xxxx") 就可以了。
说明:
SET NAMES 显示客户端发送的 SQL 语句中使用什么字符集。因此,SET NAMES 'utf-8' 语句告诉服务器“将来从这个客户端传来的信息采用字符集 utf-8。
它还为服务器发送回客户端的结果指定了字符集(例如,如果你使用一个 SELECT 语句,它表示列值使用了什么字符集)。

Array

Array

这个标签的作用是声明客户端的浏览器用什么字符集编码显示该页面,xxx 可以为 GB2312、GBK、UTF-8(和 MySQL 不同,MySQL 是 UTF8)等等。因此,大部分页面可以采用这种方式来告诉浏览器显示这个页面的时候采用什么编码,这样才不会造成编码错误而产生乱码。但是有的时候我们会发现有了这句还是不行,不管 xxx 是哪一种,浏览器采用的始终都是一种编码,这个情况我后面会谈到。

请注意, 是属于 HTML 信息的,仅仅是一个声明,仅表明服务器已经把 HTML 信息传到了浏览器。

Array

这个函数 header() 的作用是把括号里面的信息发到 http 标头。
如果括号里面的内容为上面所说那样,那作用和 标签基本相同,大家对照第一个看发现字符都差不多的。
但是不同的是如果有这段函数,浏览器就会永远采用你所要求的 xxx 编码,绝对不会不听话,因此这个函数是很有用的。
为什么会这样呢?那就得说说 http 标头和 HTML信息的差别了:

http 标头是服务器以 http 协议传送 HTML 信息到浏览器前所送出的字串。
而 标签是属于 HTML 信息的,所以 header() 发送的内容先到达浏览器,可以理解成 header() 的优先级高于meta。
Array又定义浏览器就只认前者 http 标头而不认meta了。这是什么原因?继续深入分析:接下来要谈的Apache 的原因了。

Array

Apache 根目录的 conf 文件夹里,有整个 Apache 的配置文档 httpd.conf。

用文本编辑器打开 httpd.conf,
查找:AddDefaultCharset xxx,xxx为编码名称。
这行代码的意思:设置整个服务器内的网页文件 http 标头里的字符集为你默认的 xxx字符集。
有这行,就相当于给每个文件都加了一行 header("content-type:text/html; charset=xxx")。
这下就明白为什么明明 设置了是 utf-8,可浏览器始终采用 gb2312 的原因。

如果网页里有 header("content-type:text/html; charset=xxx"),就把默认的字符集改为你设置的字符集,所以这个函数永远有用。
如果把 AddDefaultCharset xxx 前面加个"#",注释掉这句,而且页面里不含 header("content-type…"),那这个时候就轮到 meta 标签起作用了。

下面列出以上的优先顺序:

Array

Array

Array

Array

php.ini 中的 default_charset = "gb2312" 定义了 php 的默认语言字符集。
推荐注释掉此行,让浏览器根据网页头中的 charset 来自动选择语言而非做一个强制性的规定,这样就可以在同台服务器上提供多种语言的网页服务。

有了这些知识,相信可以很自信的面对中文乱码问题了。

作者:@Everyday NetLog
地址:http://log.zhoz.com/read.php?417
版权所有。转载时必须以链接形式注明作者和原始出处及本声明!

发表评论

昵称

网址

电邮

打开HTML 打开UBB 打开表情 隐藏 记住我 [登入] [注册]