如何通过网络爬虫获取网站数据?

如何通过网络爬虫获取网站数据?,第1张

这里以python为例,简单介绍一下如何通过python网络爬虫获取网站数据,主要分为静态网页数据的爬取和动态网页数据的爬取,实验环境win10+python3.6+pycharm5.0,主要内容如下:

静态网页数据

这里的数据都嵌套在网页源码中,所以直接requests网页源码进行解析就行,下面我简单介绍一下,这里以爬取糗事百科上的数据为例:

1.首先,打开原网页,如下,这里假设要爬取的字段包括昵称、内容、好笑数和评论数:

接着查看网页源码,如下,可以看的出来,所有的数据都嵌套在网页中:

2.然后针对以上网页结构,我们就可以直接编写爬虫代码,解析网页并提取出我们需要的数据了,测试代码如下,非常简单,主要用到requests+BeautifulSoup组合,其中requests用于获取网页源码,BeautifulSoup用于解析网页提取数据:

点击运行这个程序,效果如下,已经成功爬取了到我们需要的数据:

动态网页数据

这里的数据都没有在网页源码中(所以直接请求页面是获取不到任何数据的),大部分情况下都是存储在一个json文件中,只有在网页更新的时候,才会加载数据,下面我简单介绍一下这种方式,这里以爬取人人贷上面的数据为例:

1.首先,打开原网页,如下,这里假设要爬取的数据包括年利率,借款标题,期限,金额和进度:

接着按F12调出开发者工具,依次点击“Network”->“XHR”,F5刷新页面,就可以找打动态加载的json文件,如下,也就是我们需要爬取的数据:

2.然后就是根据这个json文件编写对应代码解析出我们需要的字段信息,测试代码如下,也非常简单,主要用到requests+json组合,其中requests用于请求json文件,json用于解析json文件提取数据:

点击运行这个程序,效果如下,已经成功爬取到我们需要的数据:

至此,我们就完成了利用python网络爬虫来获取网站数据。总的来说,整个过程非常简单,python内置了许多网络爬虫包和框架(scrapy等),可以快速获取网站数据,非常适合初学者学习和掌握,只要你有一定的爬虫基础,熟悉一下上面的流程和代码,很快就能掌握的,当然,你也可以使用现成的爬虫软件,像八爪鱼、后羿等也都可以,网上也有相关教程和资料,非常丰富,感兴趣的话,可以搜一下,希望以上分享的内容能对你有所帮助吧,也欢迎大家评论、留言进行补充。

如果地址栏里面的地址是:http://192.168.0.5/super/super_article.asp?id=4

192.168.0.5<%=Request.ServerVariables("HTTP_HOST")%>

/super/super_article.asp<%=Request.ServerVariables("URL")%>

id=4 <%=Request.ServerVariables("QUERY_STRING")%>

那么我们把上面的地址合起来就可以完成任务了:

http://192.168.0.5/super/super_article.asp?id=4----->http://<%=Request.ServerVariables("HTTP_HOST")&request.ServerVariables("URL")&"?"&Request.ServerVariables("QUERY_STRING") %>

新浪短网址api是新浪官方对外公开的短网址生成接口,可以将冗长的链接地址缩短生成 t.cn 格式的短链接,下面分享一个获取新浪短网址API接口的方法以及接口请求方法。

1、在线使用

将API地址中 "http://www.baidu.com"   的部分换成自己的长网址,然后复制前往浏览器中粘贴打开就能生成了。

2、请求接口

如果嫌在线生成的流程很麻烦,可以将API接口对接到程序中请求生成,请求示例如下。

PHP请求示例:

Java请求示例:

Python请求示例:

1、调用API接口时,只需将 “http://www.baidu.com”换成需要缩短的长链接即可。

2、接口支持链接中带参数,但要注意的是当链接中出现 &符号时,请用 %26 代替(或者使用url编码),否则参数可能会丢失。

3、更换链接时,必须要以http(s)://开头,否则可能会导致短网址生成失败或者生成的短网址无法跳转访问原网站。

4、上文提到的新浪短网址API接口,经测试都是比较稳定的,觉得好用记得收藏一下,以免丢失。

1、长链接转换后,为什么结尾的参数丢失了?

答:因为长链接中含有特殊字符,需要将url编码后再使用接口生成。

2、接口没有返回结果,是什么情况?

答:有些时候接口返回数据会有延迟,超时未返回即生成失败,也就不会返回结果;或者是因为原链接被封了。

3、生成的短链接有效期是多久?有没有访问次数限制?

答:生成的t.cn短链接是永久有效的,没有点击次数限制,可以放心使用。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/11540887.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-16
下一篇 2023-05-16

发表评论

登录后才能评论

评论列表(0条)

保存