从零开始学Python-使用Selenium抓取动态网页数据_框架

AJAX（Asynchronouse JavaScript And XML：异步JavaScript和XML）通过在后台与服务器进行少量数据交换，Ajax 可以使网页实现异步更新，这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行局部更新。传统的网页（不使用Ajax）如果需要更新内容，必须重载整个网页页面。

因为传统的网页在传输数据格式方面，使用的是 XML 语法，因此叫做 AJAX ，其实现在数据交互基本上都是使用 JSON 。使用AJAX加载的数据，即使使用了JS将数据渲染到了浏览器中，在右键->查看网页源代码还是不能看到通过ajax加载的数据，只能看到使用这个url加载的html代码。

法1：直接分析ajax调用的接口。然后通过代码请求这个接口。

法2：使用Selenium+chromedriver模拟浏览器行为获取数据。

Selenium 相当于是一个机器人。可以模拟人类在浏览器上的一些行为，自动处理浏览器上的一些行为，比如点击，填充数据，删除cookie等。 chromedriver 是一个驱动 Chrome 浏览器的驱动程序，使用他才可以驱动浏览器。当然针对不同的浏览器有不同的driver。以下列出了不同浏览器及其对应的driver：

现在以一个简单的获取百度首页的例子来讲下 Selenium 和 chromedriver 如何快速入门：

参考：Selenium的使用

直接直接分析ajax调用的接口爬取

selenium结合lxml爬取

以下代码在 py2 下运行通过：

import urllib2

req = urllib2Request('

运行效果：

在 Python 中进行网页数据抓取时，如果需要发送 POST 请求，需要将需要提交的数据写在 post 的 data 字段中。具体写法如下：

其中，data 参数的值是一个字典类型，里面包含需要提交的数据。根据实际需要修改参数名和参数值即可。

使用selenium的chrome或firefox的webdriver打开浏览器

driverget(url) #访问你的网页

from=driverfind_elements_by_xpath("xxx")

通过xpath或id等方法锁定到网页上表单的那个元素后，用

fromsend_keys("xxx")

最简单可以用urllib，python2x和python3x的用法不同，以python2x为例：

import urllib

html = urllibopen(url)

text = htmlread()

复杂些可以用requests库，支持各种请求类型，支持cookies，header等

再复杂些的可以用selenium，支持抓取javascript产生的文本

以上就是关于从零开始学Python-使用Selenium抓取动态网页数据全部的内容，包括:从零开始学Python-使用Selenium抓取动态网页数据、python怎样抓取网页中的文字和数字数据、关于网页数据抓取HXR，python写法，这个post的data要如何写等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/web/9631406.html

从零开始学Python-使用Selenium抓取动态网页数据

发表评论

评论列表（0条）