爬取国家统计局数据如果有数据为空怎么办

爬取国家统计局数据如果有数据为空怎么办,第1张

1.爬虫基本流程

发起请求:通过http/https库向目标站点发起请求,即发送一个request,请求可以包含额外的headers等信息,等待服务器响应

获取相应内容:如果服务器能正常响应,会得到一个response,response的内容便是所要获取的页面内容,类型可能有HTML,json字符串,二进制数据(如图片视频)等类型

解析内容:得到的内容可能是HTML,可以用正则表达式,网页解析库进行解析,可能是json,可以直接转为json对象,可能是二进制数据,可以做保存或者进一步的处理

(本次实验得到的解析内容是json)

保存数据:可以存为文本,也可以保存至数据库,或者特定格式的文件

2.打开网页并分析

国家统计局的网站很奇怪,明明是https却会告警不安全,首次打开界面如下(本人使用的是谷歌浏览器)

点击“高级”-“继续前往”,方可进入首页

选择“季度数据”-“分省季度数据”

选择“人民生活”-“城乡收支情况”

地区修改为“上海市”

按下F12,进入浏览器调试模式

刷新重新获取网页信息,找到easyquery.htm?m=Query Data&dbc...的文件。可以先选中"XHR"过滤条件,缩小查找范围

怎么确认这个文件就包含有我们要找的数据呢?点击“response”板块,向右拖动滑块可以看到表格数据可以一一对应(但数据并没有连续出现)

注意:这里的data和strdata看上去一样,但实际格式不一样,data是int或double格式,strdata是str格式,这个表格有一些空数据行,字符串格式方便做判断,字符串转数字使用eval()即可

3.完整代码及解析

注:缺少的库可以在命令行使用pip命令安装,如缺少requests库,可以在命令行输入命令

pip install requests

import urllib3

# 使用urllib3.disable_warnings()在关闭SSL认证(verify=False)情况下

# 将requests请求禁用安全请求警告

import requests# 使用Requests发送网络请求

import time # 用来获取时间戳(计算当前时间,用于网页验证)

import json # 处理json文件

可以。

国家统计局数据库下载数据的参考步骤:

1、打开浏览器,输入“国家统计局”,点击进去官网;

2、进到国家统计局官网,点击数据查询;

3、d出国家数据,点击普查数据;

4、点击第六次人口普查数据链接;

5、直接点击“各地区户数,人口数和性别比”;

6、如果想要下载成excel,可以点击左上角的excel,变成html然后再点击"各地区户数,人口数和性别比";

7、会d出另存为界面,点击保存,然后再打开保存的excel,数据已经在excel中了。

今年国内生产总值增长5%左右的预期目标是积极稳妥的目标,是尽力而为、量力而行的目标,是稳中求进的目标,也是经过努力完全可以实现的目标。

宁吉喆认为,国际国内环境存在许多不确定不稳定因素,经济增长目标要做防风险的考量,5%左右的国内生产总值增长目标接近或达到了现阶段我国潜在经济增长率。

下面看看2011-2021年我国国民经济的数据。

数据来源【广郡通】城市大数据平台


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/10063797.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-04
下一篇 2023-05-04

发表评论

登录后才能评论

评论列表(0条)

保存