如何抓取网页代码中的URL！_框架

你这个用正则工具可以提取，具体参考下面截图，如果你想要采集链接的地址，其实根本不用这么复杂的来看网页源代码，就用我截图中用到的八爪鱼采集器，可视化的，要提取链接的话，直接点击网页上的链接，会d出一个选项问你是否要采集链接，你选择采集链接即可。

1 利用Selenium IDE

我们可以通过firefox添加插件Selenium IDE并开启。当点击红色的录制按钮后，我们对网页进行 *** 作后，该工具会录制所有的行为并转化为selenium命令，当然也就包含有了locator。

方法优点：简单、方便

方法不足：对于一些复杂点的行为可能会漏掉，因此也就无法捕获相应的locator；此外locator是自动获取的，可能不是很直观，另外无法得到统一样式的locator。

2 利用Firebug

同样firefox的插件中可以添加firebug。在Tools->Web Developer->Firebug中打开Firebug，于是能够看到页面的下半部分有显示Firebug窗口，可以查看HTML，CSS等。因为了解的粗浅，所以只能说说知道的几点简单功能。

如果我们需要查看页面某个元素的locator，可以鼠标右击，选择Inspect Element with Firebug, 于是就到了元素对应的html源码位置。这样我们根据这部分源码来写locator。

但是，往往对于一些element如button等，右击后没有反应时，我们可以考虑选择它们旁边的元素进行，到源码后再通过查找其兄弟元素源码或者上一层来找到相应源码。这里主要根据是当我们鼠标放在以某tag为根节点的源码的上时，上面的页面对应的界面元素会有相应标记。

方法缺点：写出的locator可能并不是页面的唯一，这样selenium运行就难以识别

对于网页数据抓取，有BeautifulSoup、lxml以及正则表达式三种方法，其中正则表达式过于复杂，而beautifulsoup和lxml使用起来较为方便。以前简单使用过beautifulsoup（美味汤），后面为了扩展一下，熟悉一下lxml进行数据抓取。

先贴一个lxml的简单框架：

其中，最主要的在于xpath路径的获取和解析，而XPath就是地址，具体地，就是需要知道所要寻找的内容处在哪个地址下。一般而言，我们可以根据开发者工具来定位我们需要的元素，然后右击选择其所在xpath，选择初步的路径，如下图所示，

这只是一种简单的方法，更重要的，需要掌握xpath的语法规则，下面分别论述。

使用xpath获取信息，主要包括获取本文和获取属性，基本用法为

对比可以看出，一个是采用text()获取文本，一个是采用@属性获取属性值。而前面标签后面方括号就是来对标签进行筛选的。一般而言，通过选择器可以获取诸如/html/body/div[@class="useful"]/ul/li/text()的信息，但是开头的信息没有标志性，采用//div[@class="useful"]/ul/li/text()即可。

这个地方即涉及到了xpath的语法选择，主要包括以下几点：

而在选择器方面，包括以下几个

除此之外，在获取了一个元素之后，我们需要获取其下面元素的属性，即要对基于xpath获取的元素再次采用xpath，此时的获取方式为：

另外，我们也可以获取节点下面所有的字符串，方法为string()，示例为：

懒得打字了，下面的截图来自W3Cschool， >

xpath获取同级节点

XPath轴(XPath Axes)可定义某个相对于当前节点的节点集：

1、child 选取当前节点的所有子元素

2、parent 选取当前节点的父节点

3、descendant 选取当前节点的所有后代元素（子、孙等）

4、ancestor 选取当前节点的所有先辈（父、祖父等）

5、descendant-or-self 选取当前节点的所有后代元素（子、孙等）以及当前节点本身

6、ancestor-or-self 选取当前节点的所有先辈（父、祖父等）以及当前节点本身

7、preceding-sibling 选取当前节点之前的所有同级节点

8、following-sibling 选取当前节点之后的所有同级节点

9、preceding 选取文档中当前节点的开始标签之前的所有节点

10、following 选取文档中当前节点的结束标签之后的所有节点

11、self 选取当前节点

12、attribute 选取当前节点的所有属性

13、namespace 选取当前节点的所有命名空间节点

如：要定位当前td同级后的一个td

//td[='text']/following-sibling::td

以上就是关于如何抓取网页代码中的URL！全部的内容，包括:如何抓取网页代码中的URL！、如何用xpath直接爬取网页、Python lxml包下面的xpath基本用法等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/web/10139426.html

如何抓取网页代码中的URL！

发表评论

评论列表（0条）