概念:大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
作用:大数据的处理分析正成为新一代信息技术融合应用的结点。移动互联网、数字家庭、物联网、社交网络、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。
2大数据是信息产业持续高速增长的新引擎。面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。
3大数据利用将成为提高核心竞争力的关键因素。各行各业的决策对大数据的分析越来越重视,对大数据的分析可以使零售商实时掌握市场动态并迅速做出应对首先我们要了解Java语言和Linux *** 作系统,这两个是学习大数据的基础,学习的顺序不分前后。
Java :只要了解一些基础即可,做大数据不需要很深的Java 技术,学java SE 就相当于有学习大数据。基础
Linux:因为大数据相关软件都是在Linux上运行的,所以Linux要学习的扎实一些,学好Linux对你快速掌握大数据相关技术会有很大的帮助,能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置,能少踩很多坑,学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。
好说完基础了,再说说还需要学习哪些大数据技术,可以按我写的顺序学下去。
Hadoop:这是现在流行的大数据处理平台几乎已经成为大数据的代名词,所以这个是必学的。Hadoop里面包括几个组件HDFS、MapReduce和YARN,HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面,MapReduce是对数据进行处理计算的,它有个特点就是不管多大的数据只要给它时间它就能把数据跑完,但是时间可能不是很快所以它叫数据的批处理。
记住学到这里可以作为你学大数据的一个节点。
Zookeeper:这是个万金油,安装Hadoop的HA的时候就会用到它,以后的Hbase也会用到它。它一般用来存放一些相互协作的信息,这些信息比较小一般不会超过1M,都是使用它的软件对它有依赖,对于我们个人来讲只需要把它安装正确,让它正常的run起来就可以了。
Mysql:我们学习完大数据的处理了,接下来学习学习小数据的处理工具mysql数据库,因为一会装hive的时候要用到,mysql需要掌握到什么层度那你能在Linux上把它安装好,运行起来,会配置简单的权限,修改root的密码,创建数据库。这里主要的是学习SQL的语法,因为hive的语法和这个非常相似。
Sqoop:这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个,直接把Mysql数据表导出成文件再放到HDFS上也是一样的,当然生产环境中使用要注意Mysql的压力。
Hive:这个东西对于会SQL语法的来说就是神器,它能让你处理大数据变的很简单,不会再费劲的编写MapReduce程序。有的人说Pig那它和Pig差不多掌握一个就可以了。
Oozie:既然学会Hive了,我相信你一定需要这个东西,它可以帮你管理你的Hive或者MapReduce、Spark脚本,还能检查你的程序是否执行正确,出错了给你发报警并能帮你重试程序,最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的,不然你看着那一大堆脚本,和密密麻麻的crond是不是有种想屎的感觉。
Hbase:这是Hadoop生态体系中的NOSQL数据库,他的数据是按照key和value的形式存储的并且key是唯一的,所以它能用来做数据的排重,它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。
Kafka:这是个比较好用的队列工具,队列是干吗的排队买票你知道不数据多了同样也需要排队处理,这样与你协作的其它同学不会叫起来,你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来,你别怪他因为他不是搞大数据的,你可以跟他讲我把数据放在队列里你使用的时候一个个拿,这样他就不在抱怨了马上灰流流的去优化他的程序去了,因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS,这时你可以与一个叫Flume的工具配合使用,它是专门用来提供对数据进行简单处理,并写到各种数据接受方(比如Kafka)的。
Spark:它是用来弥补基于MapReduce处理数据速度上的缺点,它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算,所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以 *** 作它,因为它们都是用JVM的。
我们身边的共享单车即应用了物联网技术,《物联网时代》将物联网定义为:“通过基于互联网协议的分布式云端,将所有的东西都互联起来。”其作者马切伊认为,物联网实际上并不是什么新的发明,它以不同的形式以及存在了10年以上的时间。
连接带来了时代的需求的变化,当世界上有十亿网民的时候,Facebook就自然的出现了。
如果你仔细地观察过去25年里的科技企业,你就会发现变化一直在发生。
每隔3-7年,企业就必须对它们进行重塑。那些错过了一次技术转型的公司如果能迎头赶上的话,那么还有可能重新恢复过来。而那些错过了两次技术转型的公司,则有可能已经消失了。如果你有兴趣的话,可以查看一下50年前标准普尔500强公司的名单,如果统计无误的话,截止到2017年,只有19%的企业现在依然存在。
当我们在网络上看着90后“佛系”“中年人”的话题捧腹大笑的时候,其实我们没有看到这背后透露着的真正原因是:90后们生活在“变的太快”的世界里,太多学习工作生活里的问题他的上一辈甚至前一代人都没有遇到过,他们的迷茫那么大,以至于有些人认为:至于以不变应万变才是“正解”。
而如果我们把这件事扩展的更大一些,无论我们的真实年龄如何,我们都注定属于将遭遇革命性变革的一代人。这也正是马切伊克兰兹(Maciej Kranz)将每一个商业领域正经历“革命性变革”的这一代人叫做“物联网一代”的原因。
什么是物联网?
一个相对繁琐的解释是:
物联网是互联网的一个延伸。互联网的终端是计算机(PC、服务器),我们运行的所有程序都是计算机和网络中的数据处理和数据传输,没有涉及任何其他的终端。而未来,所有物和物之间都可以实现互联。物联网能够让互联网连接对象使用嵌入式传感器进行数据收集和交换的网络,汽车,厨房电器,甚至心脏监视器都可以通过物联网连接。随着物联网在未来几年的发展,更多的电子设备将加入物联网的阵营。
而在《物联网时代》中,物联网有一个更为简单明了的定义,它是“通过基于互联网协议的分布式云端,将所有的东西都互联起来。”其作者马切伊·克兰兹是全球物联网专家,思科公司战略创新集团副总裁。在本书中,他基于思科的工作视野和在全球物联网行业一线的长期实践经验,从数十个他参与实施的物联网案例中,总结出4种已经获得验证的、可以快速回报的场景。顺带提一下,思科公司的主营业务就是物联网。
总的来看,物联网的本质还是互联网,只不过终端不再是计算机(PC、服务器),而是嵌入式计算机系统及其配套的传感器。在这个意义上说,物联网是一个很大的概念。如果单从学科上分解来看的话,它涉及到通信,信号处理,计算机视觉,自动化控制,电路系统,信息融合,无线自组织网络,MEMS传感器设计等等。
可以说,这是计算机科技发展的必然结果,为人类服务的计算机呈现出各种形态,如穿戴设备、环境监控设备、虚拟现实设备等等。只要有硬件或产品连上网,发生数据交互,就叫物联网。实际上,大数据概念最早的提出,也是因为物联网的兴起,传感器接入网络之后,大大增加了可以挖掘的数据量,网络上的数据不但包括社交网络这种来自用户的数据,还有了来自物理世界的数据。
物联网发展速度为什么这么慢?
正如马切伊在他的书中提到的那样,物联网实际上并不是什么新的发明,它以不同的形式以及存在了10年以上的时间。
它的本质便是上个世纪学术界开始兴起传感器网络、自组织及多跳网络(wireless sensor network, ad-hoc network, wireless multi-hop network)。RFID在智能物流上的应用只是最为基本的应用场景,当前的研究远比这个更为复杂。但是,受限于应用场景和技术实现的瓶颈,物联网的发展,其实无法像互联网那样爆发。
首先,现阶段的物联网应用基本都是“锦上添花”的东西,需求性并没有那么强,如可穿戴设备和智能家居,这也就是为什么很多智能硬件叫好不叫座的根本性原因;也正是因为这个原因,商业上也不会出现滴滴打车那样的持续性投入,这又反向钳制了这一技术的商业化发展。
其次,物联网技术上还有很多没有突破。最大的技术瓶颈可能在MEMS传感器的性能和无线传感网的设计实现上。
再有,就是目前在应用上还找不到突破。目前比较活的也就是智能硬件,无人机,工业物联网这块。但是离人类和互联网形成的应用需求还无法相比,目前还没出现。
最终,物联网应用的制约因素还是能源,物联网应用场景的扩展一直在等待电池技术的突破。所以,目前来说物联网首先会在那些对能量要求不是很高的方向首先取得突破,比如智能硬件和工业设备上。
总之,物联网的方向毋庸置疑有着广阔的发展前景,但是当前基础研究和相关技术还有待发展,因此看起来发展缓慢,甚至就是停滞,学术和商业界都在等待一个颠覆性应用可以让“物联网”来一次诈尸。
共享单车中的物联网技术
完全可以想象,物联网的技术前景是广阔的。
实际上,2016年底兴起的共享单车就是一个成功的物联网商业化作品。
看似简单的单车使用过程,包括了物联网技术,人联网技术(移动互联网),自动控制技术,GPS全球定位技术等多个技术领域。但是整体的技术实现并不复杂,并没有涉及到什么创新黑科技。
首先,一辆单车需要以下几样设备参与运作:
•单车上面的智能锁(这个是核心关键,包括了GPS定位模块,GPRS通讯模块,主控芯片,电控锁模块等)
•用户手中的手机和APP
•单车提供商的云服务器(平台)
关键的环节在于单车和云服务器之间的通讯,采用的是老旧的GPRS技术。为什么要用这种落后的2G技术呢? 不使用LTE呢?答案很简单: 省钱省电覆盖好。
共享单车是典型的物联网应用场景,也能很好的克服我们之前说的物联网现存的耗能的问题。它对网络的要求并不是大数据量(它只需要很少很小的几条消息),而且它不需要速度很快(几秒钟的时延,完全可以忍受),它需要很低的功耗和很长的待机时间。
早期阶段,共享单车甚至依靠短信和云服务器进行通信,所以等待解锁的时间比较久,大约需要6-10秒。
还有一个小细节,不知道有没有人遇到过。我曾经用过一次支付宝旗下集成的一款市面上不太流行的单车品牌,扫码之后,手机提示我:锁没电了。这是我第一次意识到,原来单车的锁需要电!?
当然,正因为共享单车智能锁有这么多模块,所以它当然要耗电的。
为什么早期的单车骑起来特别累?除了一些材料和工学设计的原因,也是因为:你在充当人肉发电机。后来,为了改善用户体验,开始流行太阳能充电了。所以,越来越多的单车装上了太阳能发电板(如下图)。
经过过去一年半的迭代和升级,现在市面上所有的单车使用体验相比最早的那一批已经有了质的飞跃。
同时,近些年上市的一些空气净化器,穿戴设备以及家庭环境监控设备也已经完成了一代代的自我迭代和进化,在目前的消费场景下,服务着千家万户,这正是物联网技术未来商业化发展的一个缩影。
如何顺势借力风口,成为一名成功的物联网创业者或者职场精英?
BI Intelligence 预计:到 2020 年,地球上将有超过 240 亿的物联网设备,约为人均 4 台,当我们接近这个阶段时,60 亿美元将流入物联网解决方案,包括应用程序开发,设备硬件,系统集成,数据存储等。然而这些投资在 2025 年将产生 13 万亿美元的效益。
然而正如前面所说的,基于一些目前无法攻关的技术难题,它的商业前景也是复杂的,特别是对于创业者而言,这不是一个好消息。创业者大部分都是小公司,无论多么先进的技术,一旦市场成熟,目前的互联网大鳄公司都可以迅速投入数倍于你的资金,在非常短的时间内模仿你,超过你,压垮你。
而且,目前全世界范围内,也已经有多家物联网平台已经初具规模,比如Amazon Web 服务、Microsoft Azure、ThingWorx 物联网平台、IBM 的沃森、思科物联网云连接、Salesforce IoT 云、Oracle 集成云以及 GE Predix。
因此,物联网行业的创业者应该处理好两个问题。
首先,科技行业想突破垄断,对于微软和IBM这样的大企业而言,是技术积累。对于我们这样的个人或小团队而言,最好的方法是缩小目标客户群体,专注于某一个具体的领域或者攻关一项技术去解决某一个具体的问题。主动缩小目标客群的好处就是大企业不容易来抢市场,而你我们相对容易找到目标客户,最终说服他们买你的产品。
其次,以热门概念 *** 作以达到融资目的,而从不关心成本和收入是最错误的做法。
总结来看,就是组建一个相对小型的团队来维护一款小产品或者一个项目,这样可能反而容易成功,比如团队或项目被大公司收购。
如果你只是想成为一个工作体面收入又高的技术工作者和相关从业者,有一条相对明确的职业发展方向可以借鉴:学Java,去一家当地比较有名的计算机类企业应聘;取得一定成绩后,跳槽至国内一线物联网公司;3-5年后,有机会跳槽去国际一线企业在华公司应聘,如前面所说的这几个大型的物联网平台。如果在继续在里面服务几年,等到物联网技术真正实现商业化爆炸的那一天,你绝对已经可以斩钉截铁向别人介绍说:你好,我是物联网行业的资深行业顾问!就像我们前文提到的《物联网时代》作者马切伊先生一样。
就算不完全复制这条路,普通人想要搭上物联网这班车也不是没有可能的。毕竟,物联网的范围其实极其广泛。无论是大数据分析师、GPS定位还是井下探测,都可以算是物联网的一部分。只不过,程序猿是物联网现阶段发展时期,需求最大平均工资最高的工种而已。
以上由物联传媒提供,如有侵权联系删除
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)