统一资源定位系统(uniform resource locator,缩写URL)是因特网的万维网服务程序上用于指定信息位置的表示方法芹脊纯。
它最初是由蒂姆·伯纳斯·李发明用来作为万维网的地址,现在它已经被万维网联盟编制为因特网标准RFC 1738。
统一资源定位符的标准格式如下:
[协议类型]://[服务器地址]:[端口号]/[资源层级UNIX文件路径][文件名]?[查询]#[片段ID]
扩展资料
格式说明:
1、protocol(协议)
指定使用的传输协议,下表列出 protocol 属性的有效方案名称。 最常用的是HTTP协议,它也是WWW中应用最广的协议。
2、hostname(主机名)
是指存放资源的服务器的域名系统(DNS) 主机名或 IP 地址。有时,在主机名前也可以包含连接到服务器所需的用户名和密码(格式:username:password@hostname)。
3、port(端口号)
整数,可选,省略时使用方案的默认端口,各种传输协议都有默认的端口号,如http的默认端口为80。如果输入时省略,则使用野晌默认端口号。有时候出于安全或其他考虑,可以在服务器上对端口进行重定义,即采用非标准端口号,此时,URL中就不能省略端口号这一项。
4、path(路径)
由零或多个“/”符号隔开的字符串,一般用来表示主机上的一个目录或文件地址。
5、parameters(参数)
这是用于指定特殊参数的可选项。
7、query(查询)
可选,用于给动态网页(如使用CGI、ISAPI、PHP/JSP/ASP/ASP。NET等技术制作的网页)传递参数,可有多个参数,用“&”符号隔开,每个参数的名和嫌咐值用“=”符号隔开。
8、fragment(信息片断)
字符串,用于指定网络资源中的片断。例如一个网页中有多个名词解释,可使用fragment直接定位到某一名词解释。
打开你所要提取URL链接的网页,点击“网页另存为”(google浏览器)。这里存为埋链“22”,记得是存为网页,如:“22.html”。
用“Notepad++文本编辑器“打开”22.html“。找到你所要提取的URL链闭衫接,根据URL链接的共同部分提取出来。
然后按CTRL+F查找,输入共同部分,如图。点击”在当前文件中查找“。就会在编辑页面的下面出现所有符合规则的下载地址,以行为单位,选中并复制。
将其黏贴到excel表格中,调整对应好,选中内容所在的表格列,选择“数据”菜单栏的“分列”。就会d出如下的对话框,选择第一个选项“分隔符号”,点击下一步。
根据内容里面所含的特征,让其能提取你想要的URL链接。这里是可以通过(单引号“),就可以提取出我们要URL链接,那么在“分隔符号”中的最后一项“其他(o)”中输入(”),点击完成即可。
内容已经被分开了,而且在不同的单元格里面。整理,删掉我们不要的内容,弯态孙最后得出的就是我们要的“URL链接”。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)