大数据信息安全分析

大数据信息安全分析,第1张

方法

在同一天之内,使用手机电话卡拨打电话给任意联系人,时间时长最好在3分钟以上,并且两通电话的相隔时间在4小时以上,并且在晚上8点钟之前完成。

通信大数据行程卡搜查询到的行程数据,均来自运营商(中国移动/电信/联通等),运营商会根据用户在14天之内,单天在一城市的通话数据所判断。

以拨打电话为主,流量不会作为判断依据,所以如果用户在近期都很少拨打、接听电话,所以运营商在后台未查询到用户的数据,所以用户就无法查询到自己近14天行程。

原有的大数据平台分布信息如下

需求:

将m162p133这台机器添加到大数据集群中,并重新规划大数据集群中各组件的角色。

原有的3台服务器的hosts文件如下:

修改原有的3台和新服务器的hosts文件,改为:

原来的3台服务器使用root用户可以免密钥登陆,现需要配置为4台服务器两两之间使用root用户免密钥登陆。

首先检查新增的服务器的 /root/ssh 目录下有没有 id_rsapub 文件,我这里给到的新服务器存在公钥文件,如果不存在,执行以下命令,一路回车即可生成 id_rsapub 文件。

3台老服务器执行以下命令:

1台新服务器执行以下命令:

查看 /etc/ntpconf ,发现m162p122服务器从外网同步时间:

m162p123与m162p124服务器从m162p122同步时间:

我的安装包解压到了 /opt/cm631 目录下

Agent已成功启动,且被Cloudera Manager识别,但还未加入集群并分配各组件的角色。

添加主机到集群:

检查完之后发现有不少警告信息,大部分是原有的三台机器的问题,我们不再处理,因为原来的大数据集群使用正常,关于新加机器的警告只有一个,Supervisord版本不兼容,注意到原来的机器也有这个警告,但大数据集群还是运行正常,于是我选择忽略这里的全部警告。

原有的服务分布如下:

迁移原则:所有的管理服务分配到m162p122节点,所有的存储或者计算节点分配到m162p123、m162p124和m162p133上

下面以zookeeper服务迁移为例来说明如何迁移各组件实例

zookeeper服务旧分布情况:

zookeeper服务迁移计划:

只需要将122的zookeeper服务迁移到133即可,先添加新服务,再卸载旧服务:

停止122上的zookeeper服务:

以上即是Cloudera Manager 631在CentOS6环境下的一次扩容记录

所谓的大数据平台不是独立存在的,比如百度是依赖搜索引擎获得大数据并开展业务的,阿里是通过电子商务交易获得大数据并开展业务的,腾讯是通过社交获得大数据并开始业务的,所以说大数据平台不是独立存在的,重点是如何搜集和沉淀数据,如何分析数据并挖掘数据的价值。
我可能还不够资格回答这个问题,没有经历过一个公司大数据平台从无到有到复杂的过程。不过说说看法吧,也算是梳理一下想法找找喷。
这是个需求驱动的过程。
曾经听过spotify的分享,印象很深的是,他们分享说,他们的hadoop集群第一次故障是因为,机器放在靠窗的地方,太阳晒了当机了(笑)。从简单的没有机房放在自家窗前的集群到一直到现在复杂的数据平台,这是一个不断演进的过程。
对小公司来说,大概自己找一两台机器架个集群算算,也算是大数据平台了。在初创阶段,数据量会很小,不需要多大的规模。这时候组件选择也很随意,Hadoop一套,任务调度用脚本或者轻量的框架比如luigi之类的,数据分析可能hive还不如导入RMDB快。监控和部署也许都没时间整理,用脚本或者轻量的监控,大约是没有ganglia、nagios,puppet什么的。这个阶段也许算是技术积累,用传统手段还是真大数据平台都是两可的事情,但是为了今后的扩展性,这时候上Hadoop也许是不错的选择。
当进入高速发展期,也许扩容会跟不上计划,不少公司可能会迁移平台到云上,比如AWS阿里云什么的。小规模高速发展的平台,这种方式应该是经济实惠的,省了运维和管理的成本,扩容比较省心。要解决的是选择平台本身提供的服务,计算成本,打通数据出入的通道。整个数据平台本身如果走这条路,可能就已经基本成型了。走这条路的比较有名的应该是netflix。
也有一个阶段,你发现云服务的费用太高,虽然省了你很多事,但是花钱嗖嗖的。几个老板一合计,再玩下去下个月工资发布出来了。然后无奈之下公司开始往私有集群迁移。这时候你大概需要一群靠谱的运维,帮你监管机器,之前两三台机器登录上去看看状态换个磁盘什么的也许就不可能了,你面对的是成百上千台主机,有些关键服务必须保证稳定,有些是数据节点,磁盘三天两头损耗,网络可能被压得不堪重负。你需要一个靠谱的人设计网络布局,设计运维规范,架设监控,值班团队走起724小时随时准备出台。然后上面再有平台组真的大数据平台走起。
然后是选型,如果有技术实力,可以直接用社区的一整套,自己管起来,监控部署什么的自己走起。这个阶段部署监控和用户管理什么的都不可能像两三个节点那样人肉搞了,配置管理,部署管理都需要专门的平台和组件;定期Review用户的作业和使用情况,决定是否扩容,清理数据等等。否则等机器和业务进一步增加,团队可能会死的很惨,疲于奔命,每天事故不断,进入恶性循环。
当然有金钱实力的大户可以找Cloudera,Hortonworks,国内可以找华为星环,会省不少事,适合非互联网土豪。当然互联网公司也有用这些东西的,比如Ebay。
接下去你可能需要一些重量的组件帮你做一些事情。
比如你的数据接入,之前可能找个定时脚本或者爬log发包找个服务器接收写入HDFS,现在可能不行了,这些大概没有高性能,没有异常保障,你需要更强壮的解决方案,比如Flume之类的。
你的业务不断壮大,老板需要看的报表越来越多,需要训练的数据也需要清洗,你就需要任务调度,比如oozie或者azkaban之类的,这些系统帮你管理关键任务的调度和监控。
数据分析人员的数据大概可能渐渐从RDBMS搬迁到集群了,因为传统数据库已经完全hold不住了,但他们不会写代码,所以你上马了Hive。然后很多用户用了Hive觉得太慢,你就又上马交互分析系统,比如Presto,Impala或者SparkSQL。
你的数据科学家需要写ML代码,他们跟你说你需要Mahout或者Spark MLLib,于是你也部署了这些。
至此可能数据平台已经是工程师的日常工作场所了,大多数业务都会迁移过来。这时候你可能面临很多不同的问题。
比如各个业务线数据各种数据表多的一塌糊涂,不管是你还是写数据的人大概都不知道数据从哪儿来,接下去到哪儿去。你就自己搞了一套元数据管理的系统。
你分析性能,发现你们的数据都是上百Column,各种复杂的Query,裸存的Text格式即便压缩了也还是慢的要死,于是你主推用户都使用列存,Parquet,ORC之类的。
又或者你发现你们的ETL很长,中间生成好多临时数据,于是你下狠心把pipeline改写成Spark了。
再接下来也许你会想到花时间去维护一个门户,把这些零散的组件都整合到一起,提供统一的用户体验,比如一键就能把数据从数据库chua一下拉到HDFS导入Hive,也能一键就chua一下再搞回去;点几下就能设定一个定时任务,每天跑了给老板自动推送报表;或者点一下就能起一个Storm的topology;或者界面上写几个Query就能查询Hbase的数据。这时候你的数据平台算是成型了。
当然,磕磕碰碰免不了。每天你都有新的问题和挑战,否则你就要失业了不是?
你发现社区不断在解决你遇到过的问题,于是你们架构师每天分出很多时间去看社区的进展,有了什么新工具,有什么公司发布了什么项目解决了什么问题,兴许你就能用上。
上了这些乱七八糟的东西,你以为就安生了?Hadoop平台的一个大特点就是坑多。尤其是新做的功能新起的项目。对于平台组的人,老板如果知道这是天然坑多的平台,那他也许会很高兴,因为跟进社区,帮忙修bug,一起互动其实是很提升公司影响力的实情。当然如果老板不理解,你就自求多福吧,招几个老司机,出了问题能马上带路才是正道。当然团队的技术积累不能不跟上,因为数据平台还是乱世,三天不跟进你就不知道世界是什么样了。任何一个新技术,都是坑啊坑啊修啊修啊才完善的。如果是关键业务换技术,那需要小心再小心,技术主管也要有足够的积累,能够驾驭,知道收益和风险。

青海省能源大数据中心是国企。根据查询相关资料显示,该公司是全国首家由政府主导、在企业建设的能源大数据中心,属国家所有的企业单位。青海省能源大数据中心位于青海省西宁市城西区,西宁市城西区五四西路71号东北方向174米。

职工申请提取住房公积金,携带本人身份z原件(如委托代办,还需提供代办人身份z原件;如提取配偶住房公积金的还需提供配偶身份z和结婚证原件)以及以下相关资料到青海省西宁市城西区胜利路10号(胜利路小学对面)二楼、青海银行中心广场支行(银龙酒店旁)、中国银行西宁市商业巷支行(西宁市同仁路市委党校南侧)住房公积金专柜办理。
1、购买商品房(含异地商品房)
(1)经房地产行政管理部门网上登记备案的商品房买卖合同原件(提取时限为购房合同签订日起3年有效);
(2)开发商账户名称、账号、开户银行。
2、购买二手房
(1)房产过户的契税发票和增值税普通发票原件(过户后3年有效);
(2)住房公积金提取人名下银行活期存折(yhk)。
3、购买拆迁安置房
(1)经房地产行政管理部门登记备案的《拆迁安置协议书》原件(提取时限为购房拆迁协议签订日起3年有效);
(2)开发商账户名称、账号、开户银行。
4、购买集资房、经济适用房、保障房
(1)经房地产行政管理部门登记备案的《集资购房协议书》、《经济适用房协议书》、保障房出售合同原件(提取时限为购房合同签订日起3年有效)。
(2)建房单位名称、账号、开户银行。
5、全额缴清购房款(无公积金贷款和商业性住房贷款)
(1)经房地产行政管理部门网上登记备案的商品房买卖合同原件;
(2)全额缴清购房发票或收据原件(3年有效);
(3)提取父母、子女公积金的,同一户口的提供户口簿原件;非同一户口的提供公安户籍部门出具的直系亲属关系证明或其他法定证明原件;
(4)住房公积金提取人名下银行活期存折(yhk)。
6、职工为直系亲属购买自住住房
(1)购买商品房,经房地产行政管理部门网上登记备案的《商品房买卖合同》原件(提取时限为购房合同签订日起3年有效),开发商账户名称、账号及开户银行。
购买集资房、经济适用房、拆迁安置房、保障房,经房产部门登记备案的《集资购房协议书》、《经济适用房协议书》、《拆迁安置协议书》、保障房出售合同原件(提取时限为购房合同签订日起3年有效);售房单位名称、账号及开户银行。
购买二手房,房产过户的契税发票和增值税发票原件(过户后3年有效);提取人账号及开户银行名称。
(2)同一户口的提供户口簿原件;非同一户口的提供公安户籍部门出具的直系亲属关系证明或其他法定证明原件。
7、偿还购房贷款本息
借款人偿还本中心住房公积金贷款本息:
提供本人身份z。
借款人偿还个人住房商业贷款和其他中心住房公积金贷款本息:
(1)借款人与银行签订的《借款合同》原件;
(2)住房公积金提取人名下银行活期存折(yhk)。
8、使用自有资金一次结清购房贷款本息:
(1)借款人与银行签订的《借款合同》原件;
(2)借款银行出具的加盖银行业务专用章的贷款还清明细单原件(1年内有效);
(3)住房公积金提取人名下银行活期存折(yhk)。
9、职工为直系亲属偿还购房贷款本息
偿还本中心住房公积金贷款本息:
(1)提供本人身份z;
(2)同一户口的提供户口簿原件;非同一户口的提供公安户籍部门出具的直系亲属关系证明或其他法定证明原件。
偿还个人住房商业贷款和其他中心住房公积金贷款本息:
(1)借款人与银行签订的《借款合同》原件;
(2)同一户口的提供户口簿原件及复印件一份;非同一户口的提供公安户籍部门出具的直系亲属关系证明或其他法定证明原件。
(3)住房公积金提取人名下银行活期存折(yhk)。
10、租赁自住住房
租赁商品住房
(1)不动产管理部门出具的无房产证明原件;
(2)提取人名下银行活期存折(yhk)。
租赁公租房
公租房运营管理机构账号。
11、建造、翻建自住住房
(1)《集体土地使用证》原件;
(2)土地所在地村委会、乡(镇)政府、乡以上国土资源局、住房保障和建设局批准建造或翻建自住住房相关文件原件;
(3)乡以上住房保障和建设局办理《乡村建设规划许可证》原件;
(4)住房公积金提取人名下银行活期存折(yhk)。
12、大修自住住房
(1)具有相关规定资质的房屋质量鉴定部门出具的房屋质量鉴定报告原件;
(2)住房公积金提取人名下银行活期存折(yhk)。
13、退休
(1)行政、事业单位退休人员提供《青海省直机关事业单位工作人员退休(职)审批表》或《退休证》原件;企业单位退休人员提供《青海省企业职工退休审批表》或《退休证》原件;
(2)本人名下银行活期存折(yhk)。
14、完全丧失劳动能力或与单位终止劳动关系
(1)省级劳动能力鉴定委员会出具的完全丧失劳动能力鉴定证明原件;
(2)与单位终止劳动关系的公证书或单位解除劳动关系文件原件;
(3)本人名下银行活期存折(yhk)。
15、工作调离本行政区域
(1)调离本行政区域调令原件;
(2)新调入单位所在地公积金中心出具的公积金转入证明原件(需注明公积金转入账户名称、账号、开户银行)。
16、职工死亡、被宣告死亡
(1)死亡证明书原件;
(2)法定继承人公证书原件;
(3)法定继承人银行活期存折(yhk)或死亡职工所在单位开户银行名称及账号。
17、在职期间触犯刑律被判刑并与单位解除劳动关系
(1)法院判决书原件;
(2)行政、事业单位职工提供单位辞退或开除公职的相关文件原件;企业职工提供解除劳动合同的相关证明原件;
(3)法定授权公证书原件;
(4)本人名下银行活期存折(yhk)。
18、出境定居
(1)出境定居签证证明原件;
(2)出境定居户口注销证明原件;
(3)本人名下银行活期存折(yhk)。
19、职工患重大疾病
(1)《职工基本医疗保险门诊特殊病慢性病医疗证》原件;
(2)本人名下银行活期存折(yhk)。
20、职工缴纳购房配套支出费用
(1)购房配套支出各类税费发票原件(3年有效);
(2)提取父母、子女公积金的,同一户口的提供户口簿原件;非同一户口的提供公安户籍部门出具的直系亲属关系证明或其他法定证明原件;
(3)本人名下银行活期存折(yhk)。
21、支付物业费
本人名下银行活期存折(yhk)。
参考资料>您可以打开控制面板的日期,时间,语言和区域设置 在进入日期和时间 将其属性更改为小时更新或每天更新 这样你的服务器上的时间就不会有太大差错了 如果您家的电脑不错 那我个人建议用小时更新 不然老电脑会在更新频率快时出现短暂死机的 回答完毕


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/13042492.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-29
下一篇 2023-05-29

发表评论

登录后才能评论

评论列表(0条)

保存