url的编码和解码方式

url的编码和解码方式,第1张

url的在线编码和解码工具: http://tool.chinaz.com/tools/urlencode.aspx

1、基本知识

URLEncode:是指针对网页url中的中文字符的一种编码转化方式,最常见的就是Baidu、 Google等搜索引擎中输入中文查询时候,生成经过 Encode过的网页URL。URLEncode的方式一般有两种一种是传统的基于GB2312的Encode(Baidu、Yisou等使用),一种是 基于UTF-8的Encode(Google,Yahoo等使用)。本工具分别实现两种方式的Encode与Decode。

中文 ->GB2312的Encode ->����

中文 ->UTF-8的Encode ->中文

Html中的URLEncode:

编码为GB2312的html文件中,

http://ud03.kinoko.name/中文.rar ->浏览器自动转换为 ->http://ud03.kinoko.name/����.rar

注意:Firefox对GB2312的Encode的中文URL支持不好,因为它默认是UTF-8编码发送URL的,但是ftp://协议可以,我试过了.我认为这应该算是Firefox一个bug.

编码为UTF-8的html文件中,

http://ud03.kinoko.name/中文.rar ->浏览器自动转换为 ->http://ud03.kinoko.name/中文.rar

PHP中的URLEncode:

//GB2312的Encode

echo urlencode(“中文-_. “).”\n”// ����-_.+

echo urldecode(“����-_. “).”\n”//中文-_.

echo rawurlencode(“中文-_. “).”\n”// ����-_.

echo rawurldecode(“����-_. “).”\n”//中文-_.

?>

除了 -_. 之外的所有非字母数字字符都将被替换成百分号(%)后跟两位十六进制数。

urlencode和rawurlencode的区别:

urlencode 将空格则编码为加号(+)

rawurlencode 将空格则编码为加号( )

如果要使用UTF-8的Encode,有两种方法

一、将文件存为UTF-8文件,直接使用urlencode、rawurlencode即可。

二、使用mb_convert_encoding函数。

$url = ‘http://ud03.kinoko.name/中文.rar’

echo urlencode(mb_convert_encoding($url, ‘utf-8′, ‘gb2312′)).”\n”

echo rawurlencode(mb_convert_encoding($url, ‘utf-8′, ‘gb2312′)).”\n”

//http://ud03.kinoko.name/中文.rar

?>

实例:

function parseurl($url=”")

{

$url = rawurlencode(mb_convert_encoding($url, ‘gb2312′, ‘utf-8′))

$a = array(“:”, “/”, “@″)

$b = array(“:”, “/”, “@”)

$url = str_replace($a, $b, $url)

return $url

}

$url=”ftp://ud03:password@ud03.kinoko.name/中文/中文.rar”

echo parseurl($url)

//ftp://ud03:password@ud03.kinoko.name/����/����.rar

?>

JavaScript中的URLEncode:

中文-_. 中文-_.

encodeURI 不对下列字符进行编码:“:”、“/”、“”、“?”、“@”等特殊字符。

http://ud03.kinoko.name/中文.rarhttp://ud03.kinoko.name/中文.rar

2、示例

http://canvas.gdt.qq.com/canvas/1?viewid=%12%0C%08%E1%98%B7%CD%CB%DC%14%20%E4%A5%01%18%FF%89%18&ckn=91142321196129

1)utf-8解码

http://canvas.gdt.qq.com/canvas/1?viewid=�ᘷ���� ������&ckn=91142321196129

2)gb2312解码

http://canvas.gdt.qq.com/canvas/1?viewid=�针吠塑� 浈��?&ckn=91142321196129

一般来说,URL只能使用英文字母、阿拉伯数字和某些标点符号,不能使用其他文字和符号,这是因为网络标准 RFC 1738 做了硬性规定。如果URL中有汉字,就必须编码后使用。但是麻烦的是,RFC 1738没有规定具体的编码方法,而是交给应用程序(浏览器)自己决定,这导致"URL编码"成为了一个混乱的领域。

四种导致混乱的情况:

网址路径中包含汉字

查询字符串包含汉字

Get方法生成的URL包含汉字

Ajax调用的URL包含汉字(在Ajax调用中,IE总是采用GB2312编码( *** 作系统的默认编码),而Firefox总是采用utf-8编码。)

综上所述,这个时候需要一种编码方法向服务器发送请求,而js则可以满足这一需求。

decodeURI()

decodeURIComponent()

encodeURI()

encodeURIComponent() (一般使用encodeURI()和encodeURIComponent())

encodeURI()是Javascript中真正用来对URL编码的函数。它着眼于对整个URL进行编码,因此除了常见的符号以外,对其他一些在网址中有特殊含义的符号"/ ? : @ &= + $ , #",也不进行编码。编码后,它输出符号的utf-8形式,并且在每个字节前加上%。

它对应的解码函数是decodeURI()

与encodeURI()的区别是,它用于对URL的组成部分进行个别编码,而不用于对整个URL进行编码。因此,"/ ? : @ &= + $ , #",这些在encodeURI()中不被编码的符号,在encodeURIComponent()中统统会被编码。至于具体的编码方法,两者是一样。

它对应的解码函数是decodeURIComponent()。

encodeURIComponent比encodeURI编码的范围更大。

举例来说,encodeURIComponent会把 http:// 编码成 http%3A%2F%2F 而encodeURI却不会。

如果你需要编码整个URL,然后需要使用这个URL,那么用encodeURI,否则使用encodeURIComponent。

因为在程序中无法直接请求一个含有中文的url,所以,我们要对它编码,我们一般会编成gbk,utf-8,但是URL编码和gbk,utf-8编码的区别是,它不会把所有字符都编码,

它只对非字母数字的字符借助utf-8或gbk来编码。

编码时注意 不能把整个url路径传到UrlEncoder的decode方法中,因为它也会把反斜杠/和冒号:也编码,所以域名部分是不需要编码的,取出路径部分 /图片/华仔.jpg


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/6215558.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-03-18
下一篇 2023-03-18

发表评论

登录后才能评论

评论列表(0条)

保存