《虚拟化与云计算》
《云计算核心技术剖析》
《云计算应用架构》
《走进云计算:Windows Azure 实战手机》等
以上书籍也有电子书,可以关注:上云培训,下载电子书1高效分布式
必须是高效的分布式系统。物联网产生的数据量巨大,仅中国而言,就有5亿多台智能电表,每台电表每隔15分钟采集一次数据,一天全国智能电表就会产生500多亿条记录。这么大的数据量,任何一台服务器都无能力处理,因此处理系统必须是分布式的,水平扩展的。为降低成本,一个节点的处理性能必须是高效的,需要支持数据的快速写入和快速查询。
2实时处理
必须是实时处理的系统。互联网大数据处理,大家所熟悉的场景是用户画像、推荐系统、舆情分析等等,这些场景并不需要什么实时性,批处理即可。但是对于物联网场景,需要基于采集的数据做实时预警、决策,延时要控制在秒级以内。如果计算没有实时性,物联网的商业价值就大打折扣。
3高可靠性
需要运营商级别的高可靠服务。物联网系统对接的往往是生产、经营系统,如果数据处理系统宕机,直接导致停产,产生经济有损失、导致对终端消费者的服务无法正常提供。比如智能电表,如果系统出问题,直接导致的是千家万户无法正常用电。因此物联网大数据系统必须是高可靠的,必须支持数据实时备份,必须支持异地容灾,必须支持软件、硬件在线升级,必须支持在线IDC机房迁移,否则服务一定有被中断的可能。
4高效缓存
需要高效的缓存功能。绝大部分场景,都需要能快速获取设备当前状态或其他信息,用以报警、大屏展示或其他。系统需要提供一高效机制,让用户可以获取全部、或符合过滤条件的部分设备的最新状态。
5实时流式计算
需要实时流式计算。各种实时预警或预测已经不是简单的基于某一个阈值进行,而是需要通过将一个或多个设备产生的数据流进行实时聚合计算,不只是基于一个时间点、而是基于一个时间窗口进行计算。不仅如此,计算的需求也相当复杂,因场景而异,应容许用户自定义函数进行计算。
6数据订阅
需要支持数据订阅。与通用大数据平台比较一致,同一组数据往往有很多应用都需要,因此系统应该提供订阅功能,只要有新的数据更新,就应该实时提醒应用。而且这个订阅也应该是个性化的,容许应用设置过滤条件,比如只订阅某个物理量五分钟的平均值。
7和历史数据处理合二为一
实时数据和历史数据的处理要合二为一。实时数据在缓存里,历史数据在持久化存储介质里,而且可能依据时长,保留在不同存储介质里。系统应该隐藏背后的存储,给用户和应用呈现的是同一个接口和界面。无论是访问新采集的数据还是十年前的老数据,除输入的时间参数不同之外,其余应该是一样的。
8数据持续稳定写入
需要保证数据能持续稳定写入。对于物联网系统,数据流量往往是平稳的,因此数据写入所需要的资源往往是可以估算的。但是变化的是查询、分析,特别是即席查询,有可能耗费很大的系统资源,不可控。因此系统必须保证分配足够的资源以确保数据能够写入系统而不被丢失。准确的说,系统必须是一个写优先系统。
9数据多维度分析
需要对数据支持灵活的多维度分析。对于联网设备产生的数据,需要进行各种维度的统计分析,比如从设备所处的地域进行分析,从设备的型号、供应商进行分析,从设备所使用的人员进行分析等等。而且这些维度的分析是无法事先想好的,而是在实际运营过程中,根据业务发展的需求定下来的。因此物联网大数据系统需要一个灵活的机制增加某个维度的分析。
10支持数据计算
需要支持数据降频、插值、特殊函数计算等 *** 作。原始数据的采集可能频次挺高,但具体分析时,往往不需要对原始收据进行,而是数据降频之后。系统需要提供高效的数据降频 *** 作。设备是很难同步的,不同设备采集数据的时间点是很难对齐的,因此分析一个特定时间点的值,往往需要插值才能解决,系统需要提供线性插值、设置固定值等多种插值策略才行。工业互联网里,除通用的统计 *** 作之外,往往还需要支持一些特殊函数,比如时间加权平均。
11即席分析和查询
需要支持即席分析和查询。为提高大数据分析师的工作效率,系统应该提供一命令行工具或容许用户通过其他工具,执行SQL查询,而不是非要通过编程接口。查询分析的结果可以很方便的导出,再制作成各种图标。
12灵活数据管理策略
需要提供灵活的数据管理策略。一个大的系统,采集的数据种类繁多,而且除采集的原始数据外,还有大量的衍生数据。这些数据各自有不同的特点,有的采集频次高,有的要求保留时间长,有的需要多个副本以保证更高的安全性,有的需要能快速访问。因此物联网大数据平台必须提供多种策略,让用户可以根据特点进行选择和配置,而且各种策略并存。
13开放的系统
必须是开放的。系统需要支持业界流行的标准SQL,提供各种语言开发接口,包括C/C++,Java,Go,Python,RESTful等等,也需要支持Spark,R,Matlab等等,方便集成各种机器学习、人工智能算法或其他应用,让大数据处理平台能够不断扩展,而不是成为一个孤岛。
14支持异构环境
系统必须支持异构环境。大数据平台的搭建是一个长期的工作,每个批次采购的服务器和存储设备都会不一样,系统必须支持各种档次、各种不同配置的服务器和存储设备并存。
15支持边云协同
需要支持边云协同。要有一套灵活的机制将边缘计算节点的数据上传到云端,根据具体需要,可以将原始数据,或加工计算后的数据,或仅仅符合过滤条件的数据同步到云端,而且随时可以取消,更改策略。
分析大数据
物联网传感器持续接收来自大量连接的异构设备的数据。随着联网设备数量的增加,物联网系统需要具有可伸缩性,以适应数据的流入。分析系统处理这些数据并提供有价值的报告,这将使企业具有竞争优势。由于数据是基于其类型挖掘的,因此必须对数据进行分岔以充分利用数据。根据问题数据的类型,可以进行不同类型的分析。比较常见的有:
流分析(Streaming Analytics)
流分析结合了来自传感器的未排序的流数据和来自研究的存储数据,以发现熟悉的模式。这种方法的实时分析可以在车队跟踪和银行交易等用例中提供帮助。
地理空间分析(Geospatial Analytics)
另一类大数据分析方法是地理空间,其中IoT传感器数据和传感器的物理位置的组合可以为预测分析提供整体视角。物联网世界中的对象数量众多,其通过无线网络发送数据的能力有助于获得详细的数据转储,这些数据转储可用于促进洞察。
挑战
对于目前所处的阶段,获取、分析和报告物联网数据是大多数企业的必修课。然而,由于这些技术仍处于发展阶段,这些组织面临着相当多的挑战。其中一些是:
集成
由于物联网数据通过多个渠道以不同的格式接收,因此收集和集成物联网数据具有挑战性。分析系统需要确保接收到的数据是一种可 *** 作的格式,足以确定见解。文本挖掘和机器学习技术通常用于从传感器中提取文本数据。然而,提取非文本格式的数据,如图像、视频不能快速完成。
关于如何对物联网数据进行大数据分析,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)