如何通过网络爬虫获取网站数据？_软件运维

这里以python为例，简单介绍一下如何通过python网络爬虫获取网站数据，主要分为静态网页数据的爬取和动态网页数据的爬取，实验环境win10+python3.6+pycharm5.0，主要内容如下：

静态网页数据

这里的数据都嵌套在网页源码中，所以直接requests网页源码进行解析就行，下面我简单介绍一下，这里以爬取糗事百科上的数据为例：

1.首先，打开原网页，如下，这里假设要爬取的字段包括昵称、内容、好笑数和评论数：

接着查看网页源码，如下，可以看的出来，所有的数据都嵌套在网页中：

2.然后针对以上网页结构，我们就可以直接编写爬虫代码，解析网页并提取出我们需要的数据了，测试代码如下，非常简单，主要用到requests+BeautifulSoup组合，其中requests用于获取网页源码，BeautifulSoup用于解析网页提取数据：

点击运行这个程序，效果如下，已经成功爬取了到我们需要的数据：

动态网页数据

这里的数据都没有在网页源码中（所以直接请求页面是获取不到任何数据的），大部分情况下都是存储在一个json文件中，只有在网页更新的时候，才会加载数据，下面我简单介绍一下这种方式，这里以爬取人人贷上面的数据为例：

1.首先，打开原网页，如下，这里假设要爬取的数据包括年利率，借款标题，期限，金额和进度：

接着按F12调出开发者工具，依次点击“Network”->“XHR”，F5刷新页面，就可以找打动态加载的json文件，如下，也就是我们需要爬取的数据：

2.然后就是根据这个json文件编写对应代码解析出我们需要的字段信息，测试代码如下，也非常简单，主要用到requests+json组合，其中requests用于请求json文件，json用于解析json文件提取数据：

点击运行这个程序，效果如下，已经成功爬取到我们需要的数据：

至此，我们就完成了利用python网络爬虫来获取网站数据。总的来说，整个过程非常简单，python内置了许多网络爬虫包和框架（scrapy等），可以快速获取网站数据，非常适合初学者学习和掌握，只要你有一定的爬虫基础，熟悉一下上面的流程和代码，很快就能掌握的，当然，你也可以使用现成的爬虫软件，像八爪鱼、后羿等也都可以，网上也有相关教程和资料，非常丰富，感兴趣的话，可以搜一下，希望以上分享的内容能对你有所帮助吧，也欢迎大家评论、留言进行补充。

这个非常简单，requests+BeautifulSoup组合就可以轻松实现，下面我简单介绍一下，感兴趣的朋友可以自己尝试一下，这里以爬取糗事百科网站数据（静态网站）为例：

1.首先，安装requets模块，这个直接在cmd窗口输入命令“pipinstallrequests”就行，如下：

2.接着安装bs4模块，这个模块包含了BeautifulSoup，安装的话，和requests一样，直接输入安装命令“pipinstallbs4”即可，如下：

3.最后就是requests+BeautifulSoup组合爬取糗事百科，requests用于请求页面，BeautifulSoup用于解析页面，提取数据，主要步骤及截图如下：

这里假设爬取的数据包含如下几个字段，包括用户昵称、内容、好笑数和评论数：

接着打开对应网页源码，就可以直接看到字段信息，内容如下，嵌套在各个标签中，后面就是解析这些标签提取数据：

基于上面网页内容，测试代码如下，非常简单，直接find对应标签，提取文本内容即可：

程序运行截图如下，已经成功抓取到网站数据：

至此，我们就完成了使用python来爬去静态网站。总的来说，整个过程非常简单，也是最基本的爬虫内容，只要你有一定的python基础，熟悉一下上面的示例，很快就能掌握的，当然，你也可以使用urllib，正则表达式匹配等，都行，网上也有相关教程和资料，介绍的非常详细，感兴趣的话，可以搜一下，希望以上分享的内容能对你有所帮助吧，也欢迎大家评论、留言进行补充。

先给数据做随机编号。可用随机函数：

1、插入辅助列（B列吧），在B1输入=INT(RAND()*5000+1)回车并向下填充（假设有5000行）。

2、选B列——复制——原地不动——右键——选择性粘贴——数值——确定。

3、选数据区域——菜单栏——数据——排序——主要关键字：列B——升序（或降序均行）——确定。

4、这样就把各行给随机打乱了。取前200行就是随机提取的行。

5、如果怕把原来各行的顺序打乱，B列排序前先插入一列（C列）——前两格输入1、2——选1、2两格向下填充形成序列号——B列排序并提取后，选C列排序就可以恢复原状了。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/11176343.html

如何通过网络爬虫获取网站数据？

发表评论

评论列表（0条）