打开你所要提取URL链接的网页,点击“网页另存为”(google浏览器)。这里存为“22”,记得是存为网页,如:“22html”。
用“Notepad++文本编辑器“打开”22html“。找到你所要提取的URL链接,根据URL链接的共同部分提取出来。
然后按CTRL+F查找,输入共同部分,如图。点击”在当前文件中查找“。就会在编辑页面的下面出现所有符合规则的下载地址,以行为单位,选中并复制。
将其黏贴到excel表格中,调整对应好,选中内容所在的表格列,选择“数据”菜单栏的“分列”。就会d出如下的对话框,选择第一个选项“分隔符号”,点击下一步。
根据内容里面所含的特征,让其能提取你想要的URL链接。这里是可以通过(单引号“),就可以提取出我们要URL链接,那么在“分隔符号”中的最后一项“其他(o)”中输入(”),点击完成即可。
内容已经被分开了,而且在不同的单元格里面。整理,删掉我们不要的内容,最后得出的就是我们要的“URL链接”。
本文承接上面两篇,本篇中的示例要调用到前两篇中的函数,做一个简单的URL采集。一般php采集网络数据会用file_get_contents、file和cURL。不过据说cURL会比file_get_contents、file更快更专业,更适合采集。今天就试试用cURL来获取网页上的所有链接。示例如下:<php
/
使用curl 采集hao123com下的所有链接。
/
include_once('functionphp');
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, '>1、打开你所要提取URL链接的网页,点击“网页另存为”。
2、用“Notepad++文本编辑器”打开刚另存的文件。找到你所要提取的URL链接,根据URL链接的共同部分提取出来。
3、然后按CTRL+F查找,输入共同部分,就会在编辑页面的下面出现所有符合规则的下载地址,以行为单位,选中并复制。
4、将其黏贴到excel表格中,调整对应好,选中内容所在的表格列,选择“数据”菜单栏的“分列”。
5、就会d出如下的对话框,选择第一个选项“分隔符号”,点击下一步。
6、根据内容里面所含的特征,让其能提取你想要的URL链接即可。朋友!!你的想法还是可以实现的!!你直接用下载工具中的 [ 使用XXXX下载该网页中的全部链接 ] 就能把所有的链接地址全部罗列出来!!
如果想保存为文本,你可以用在线工具--网页链接查看器
>
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)