爬取国家统计局数据如果有数据为空怎么办

爬取国家统计局数据如果有数据为空怎么办,第1张

1.爬虫基本流程

发起请求:通过http/https库向目标站点发起请求,即发送一个request,请求可以包含额外的headers等信息,等待服务器响应

获取相应内容:如果服务器能正常响应,会得到一个response,response的内容便是所要获取的页面内容,类型可能有HTML,json字符串,二进制数据(如图片视频)等类型

解析内容:得到的内容可能是HTML,可以用正则表达式,网页解析库进行解析,可能是json,可以直接转为json对象,可能是二进制数据,可以做保存或者进一步的处理

(本次实验得到的解析内容是json)

保存数据:可以存为文本,也可以保存至数据库,或者特定格式的文件

2.打开网页并分析

国家统计局的网站很奇怪,明明是https却会告警不安全,首次打开界面如下(本人使用的是谷歌浏览器)

点击“高级”-“继续前往”,方可进入首页

选择“季度数据”-“分省季度数据”

选择“人民生活”-“城乡收支情况”

地区修改为“上海市”

按下F12,进入浏览器调试模式

刷新重新获取网页信息,找到easyquery.htm?m=Query Data&dbc...的文件。可以先选中"XHR"过滤条件,缩小查找范围

怎么确认这个文件就包含有我们要找的数据呢?点击“response”板块,向右拖动滑块可以看到表格数据可以一一对应(但数据并没有连续出现)

注意:这里的data和strdata看上去一样,但实际格式不一样,data是int或double格式,strdata是str格式,这个表格有一些空数据行,字符串格式方便做判断,字符串转数字使用eval()即可

3.完整代码及解析

注:缺少的库可以在命令行使用pip命令安装,如缺少requests库,可以在命令行输入命令

pip install requests

import urllib3

# 使用urllib3.disable_warnings()在关闭SSL认证(verify=False)情况下

# 将requests请求禁用安全请求警告

import requests# 使用Requests发送网络请求

import time # 用来获取时间戳(计算当前时间,用于网页验证)

import json # 处理json文件

你可以从国家统计局官网查国家统计局的数据。

目前,国家统计局官方网站提供有三种查询数据方式。

1、“最新发布”——获取最新统计数据的首选

国家统计局官网是国家统计局发布统计信息的主要渠道之一,每逢月、季、年度等统计信息发布日,在我局官网“最新发布”栏目,都会发布新闻稿。它与“国家统计信息发布日程表”一致,是公众获取最新统计数据的首选。

3、国家统计数据库——快速查询统计指标及系列数据的渠道

国家统计数据库包括历年月、季、年度数据,可通过数据库“搜索”、选择“指标”等方式,方便快捷地查询到历年、分地区、分专业的数据。是公众快速查阅统计指标及系列数据的最便捷方法。

3、“统计出版物”——网上查阅年鉴类书籍

“统计出版物”栏目提供有《中国统计年鉴》、《统计公报》、《国际统计年鉴》、《金砖国家联合统计手册》四类图书的电子版,方便公众查阅。

从国家统计局数据库下载数据的参考步骤:

1、打开浏览器,输入“国家统计局”,点击进去官网;

2、进到国家统计局官网,点击数据查询;

3、d出国家数据,点击普查数据;

4、点击第六次人口普查数据链接;

5、直接点击“各地区户数,人口数和性别比”;

6、如果想要下载成excel,可以点击左上角的excel,变成html然后再点击"各地区户数,人口数和性别比";

7、会d出另存为界面,点击保存,然后再打开保存的excel,数据已经在excel中了。

拓展资料:国家统计局是什么级别的行政机构?

是国务院直属级别的行政机构。

中华人民共和国国家统计局于1952年8月成立,是为了适应社会主义经济建设的需要,中央人民政府第十七次全体会议决定成立。

国家统计局是国务院直属机构,主管全国统计和国民经济核算工作,拟定统计工作法规、统计改革和统计现代化建设规划以及国家统计调查计划,组织领导和监督检查各地区、各部门的统计和国民经济核算工作,监督检查统计法律法规的实施。

法律依据:《中华人民共和国统计法》第十一条统计调查项目包括国家统计调查项目、部门统计调查项目和地方统计调查项目。国家统计调查项目是指全国性基本情况的统计调查项目。部门统计调查项目是指国务院有关部门的专业性统计调查项目。地方统计调查项目是指县级以上地方人民政府及其部门的地方性统计调查项目。国家统计调查项目、部门统计调查项目、地方统计调查项目应当明确分工,互相衔接,不得重复。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/6773410.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-03-28
下一篇 2023-03-28

发表评论

登录后才能评论

评论列表(0条)

保存