边缘计算(Edge computing)的用例和物联网(IoT)

边缘计算(Edge computing)的用例和物联网(IoT),第1张

现今世界网络和数据普及,不单止智能手机能连接网络,就连手表,闹钟,家电等日常用品,也能即时在网络中提取资讯,并配合环据数据作出分析,将最好的体验反馈给 用家。而透过网络来连接人,流程,资讯和装置这个概念,亦是我们平常所说的物联网(物联网,又名物联网)。

承接上文介绍了雾计算的简单的应用和由来,下文将会介绍物联网的一个重要技术 - 边缘计算(Edge computing)。下文将会阐述边缘计算的由来,并介绍它与物联网的关系,而且会利用无人驾驶作为用例,介绍云计算的短处和边缘计算的应用。

先定义一下边缘计算(wikepedia,2019):

这里提到很多艰涩的专业名词,例如是“分散式运算”,“节点”等,其实只是描述:边缘技术是一种技术将大型应用程式的一部分转移到(即分散式运算)日常设备中处理(即边缘节点中)。

在云计算的典型结构中(如上图),通常可分为“云(云层) - 网(雾层) - 端(边缘)”三层。“端”这一层覆盖所有终端的应用程式,亦通常是被管理的角色。当云计算一计算出结果,就会到透过“网”层,将指令发送到“端”层的应用程式执行,而应用程式收到数据后,则会发送到“云”层作计算。

而边缘计算则可以想像为给予“端”层一定程度的“自治”。在边缘计算的架构中,终点被赋予简单的存储和计算能力(与雾计算不同,这里重点是“简单”的功能) ,令它能偶尔脱离云的管理,并根据环境数据作出回应。

增加终端系统简单的计算和存取能力看似一小步,但其实这个布局有着莫大的好处,当中包括:

  - 低延迟:数据由近场产生,能快速回应

  - 独立性:在没有网络连接下,系统亦能运作

  - 合规性:无需传送用户资料,保护个人数据

  - 简化数据:终端先处理部份数据,数据简化后才向云服务器传输

  - 安全性:数据传输减少,减少网络安全风险

无人驾驶是边缘计算其中一个经典用例,亦是一个很好例子说明云计算的短处和为什么需要边缘计算。

下图展示的是常用的云计算架构,当中包括1)一架智能汽车(客户端),并且正在使用无人驾驶功能,2)互联网(Internet),用作传输数据,以及3)云服务(云计算)服务器),用作提供无人驾驶服务。

假设汽车正在以60ms-1的速度行驶,并在起始位置感测到前方3m有阻碍物。由于汽车正在使用云计算的架构,汽车本身并没有分析的功能,汽车会将感测到的影像 传送到云服务器中作分析(步骤1)。

很不幸地,由于汽车现在在北区甚远,信息在005s后才能到云服务 无上停驶,但也要经过005s才能将指令发送到汽车上执行(步骤2)。

在这段发送信息到回收指令的过程中(~01s),汽车会继续以均速行驶(60ms-1),并到6m后(= 60ms-1×01s)才会收到指令停下来 。而且会撞到在3m前的路人,酿成车祸。

汽车在起始位置感测到前方3m有阻碍物,会立刻执行停车指令(步骤1)。然后再发送影像和决策内容到云服务器中作进阶分析(步骤2),以改善无人驾驶性能。 (注:这里看似与雾计算方式相似,但在过程中,应用程式没有作任何的数据分析,只根据感应器内容作出回应。若然是雾计算的话,感应器信息会发送到雾服务中,再作分析,然后通知终端设备作出回应。)

由此可见,云服务器距离数据产生的位置较远,因此会造成较大的延迟。而无人驾驶这些需要实时作出决策的活动,则很大机会需要使用边缘计算,使计算的服务靠近产生数据的源头,做到计算更接近实际行动。

随着科技的进步,数据传输速度的快速提升,不少日常物品,例如是家用电器,车辆等,都已经嵌入感测器,并透过网络接结与互联网交换资讯,形成了庞大的物件网络(即物联网)。

物件会在运行时会收集到大量的环境数据。有些人会问,为什么不把数据都在本地(local drive)处理,其他数据再传到云服务做储存。这可能是其中一个可以实行的方法,但如果所有数据都在本地处理,物件本身要设有很多的存储装置和处理服务器。这会大大增加电力消秏和物件重量,增加成本。

因此,最好的方法是结合云计算和边缘计算的优势做出最佳的配置。在一些决定物件重大安全性的事件(例如如上文无人驾驶例子的刹车)可将决定的主导权放到边缘上,其他没有急切性的事情,则放到云服务器低成本集中处理。透过云与边缘的良好分工,大大减少成本,亦能提高运算效率。

在考虑Hadoop生态系统中的各种引擎时,重要的是要了解每个引擎在某些用例下效果最佳,并且企业可能需要使用多种工具组合才能满足每个所需的用例。话虽如此,这里是对Apache Spark的一些顶级用例的回顾。

一、流数据

Apache Spark的关键用例是其处理流数据的能力。由于每天要处理大量数据,因此对于公司而言,实时流传输和分析数据变得至关重要。Spark Streaming具有处理这种额外工作负载的能力。一些专家甚至认为,无论哪种类型,Spark都可以成为流计算应用程序的首选平台。提出此要求的原因是,Spark Streaming统一了不同的数据处理功能,从而使开发人员可以使用单个框架来满足其所有处理需求。

当今企业使用Spark Streaming的一般方式包括:

1、流式ETL –在数据仓库环境中用于批处理的传统ETL(提取,转换,加载)工具必须读取数据,将其转换为数据库兼容格式,然后再将其写入目标数据库。使用Streaming ETL,在将数据推送到数据存储之前,将对其进行连续的清理和聚合。

2、数据充实 –这种Spark Streaming功能通过将实时数据与静态数据相结合来充实实时数据,从而使组织能够进行更完整的实时数据分析。在线广告商使用数据充实功能将历史客户数据与实时客户行为数据结合起来,并根据客户的行为实时提供更多个性化和针对性的广告。

3、触发事件检测 – Spark Streaming使组织可以检测到可能对系统内部潜在严重问题的罕见或异常行为(“触发事件”)并做出快速响应。金融机构使用触发器来检测欺诈性交易并阻止其欺诈行为。医院还使用触发器来检测潜在的危险健康变化,同时监视患者的生命体征-向正确的护理人员发送自动警报,然后他们可以立即采取适当的措施。

4、复杂的会话分析 –使用Spark Streaming,与实时会话有关的事件(例如登录网站或应用程序后的用户活动)可以组合在一起并进行快速分析。会话信息还可以用于不断更新机器学习模型。诸如Netflix之类的公司使用此功能可立即了解用户在其网站上的参与方式,并提供更多实时**推荐。

二、机器学习

许多Apache Spark用例中的另一个是它的机器学习功能。

Spark带有用于执行高级分析的集成框架,该框架可帮助用户对数据集进行重复查询,这从本质上讲就是处理机器学习算法。在此框架中找到的组件包括Spark的可扩展机器学习库(MLlib)。MLlib可以在诸如聚类,分类和降维等领域中工作。所有这些使Spark可以用于一些非常常见的大数据功能,例如预测智能,用于营销目的的客户细分以及情感分析。使用推荐引擎的公司将发现Spark可以快速完成工作。

网络安全是Spark 机器学习功能的一个很好的商业案例。通过使用Spark堆栈的各种组件,安全提供程序可以对数据包进行实时检查,以发现恶意活动的痕迹。在前端,Spark Streaming允许安全分析人员在将数据包传递到存储平台之前检查已知威胁。到达存储区后,数据包将通过其他堆栈组件(例如MLlib)进行进一步分析。因此,安全提供商可以在不断发展的过程中了解新的威胁-始终领先于黑客,同时实时保护其客户。

三、互动分析

Spark最显着的功能之一就是其交互式分析功能。MapReduce是为处理批处理而构建的,而Hive或Pig等SQL-on-Hadoop引擎通常太慢,无法进行交互式分析。但是,Apache Spark足够快,可以执行探索性查询而无需采样。Spark还与包括SQL,R和Python在内的多种开发语言接口。通过将Spark与可视化工具结合使用,可以交互地处理和可视化复杂的数据集。

下一版本的Apache Spark(Spark 20)将于今年的4月或5月首次亮相,它将具有一项新功能- 结构化流 -使用户能够对实时数据执行交互式查询。通过将实时流与其他类型的数据分析相结合,预计结构化流将通过允许用户针对Web访问者当前会话运行交互式查询来促进Web分析。它也可以用于将机器学习算法应用于实时数据。在这种情况下,将对旧数据进行算法训练,然后将其重定向以合并新的数据,并在其进入内存时从中学习。

四、雾计算

尽管大数据分析可能会引起广泛关注,但真正激发技术界想象力的概念是物联网(IoT)。物联网通过微型传感器将对象和设备嵌入在一起,这些微型传感器彼此之间以及与用户进行通信,从而创建了一个完全互连的世界。这个世界收集了大量数据,对其进行处理,并提供革命性的新功能和应用程序供人们在日常生活中使用。但是,随着物联网的扩展,对大量,种类繁多的机器和传感器数据进行大规模并行处理的需求也随之增加。但是,利用云中的当前分析功能很难管理所有这些处理。

那就是雾计算和Apache Spark出现的地方。

雾计算将数据处理和存储分散化,而不是在网络边缘执行这些功能。但是,雾计算为处理分散数据带来了新的复杂性,因为它越来越需要低延迟,机器学习的大规模并行处理以及极其复杂的图形分析算法。幸运的是,有了Spark Streaming等关键堆栈组件,交互式实时查询工具(Shark),机器学习库(MLib)和图形分析引擎(GraphX),Spark不仅具有雾计算解决方案的资格。实际上,随着物联网行业逐渐不可避免地融合,许多行业专家预测,与其他开源平台相比,Spark有可能成为事实上的雾基础设施。

现实世界中的火花

如前所述,在线广告商和诸如Netflix之类的公司正在利用Spark获得见识和竞争优势。其他也从Spark受益的著名企业是:

Uber –这家跨国在线出租车调度公司每天都从其移动用户那里收集TB级的事件数据。通过使用Kafka,Spark Streaming和HDFS构建连续的ETL管道,Uber可以在收集原始非结构化事件数据时将其转换为结构化数据,然后将其用于进一步和更复杂的分析。

Pinterest –通过类似的ETL管道,Pinterest可以利用Spark Streaming即时了解世界各地的用户如何与Pins互动。因此,当人们浏览站点并查看相关的图钉时,Pinterest可以提出更相关的建议,以帮助他们选择食谱,确定要购买的产品或计划前往各个目的地的行程。

Conviva –这家流媒体视频公司每月平均约有400万个视频供稿,仅次于YouTube。Conviva使用Spark通过优化视频流和管理实时视频流量来减少客户流失,从而保持一致的流畅,高质量的观看体验。

何时不使用Spark

尽管它具有通用性,但这并不一定意味着Apache Spark的内存中功能最适合所有用例。更具体地说,大数据分析Apache Spark的应用实例Spark并非设计为多用户环境。Spark用户需要知道他们有权访问的内存对于数据集是否足够。添加更多的用户使此 *** 作变得更加复杂,因为用户必须协调内存使用量才能同时运行项目。由于无法处理这种类型的并发,用户将需要为大型批处理项目考虑使用备用引擎,例如Apache Hive。

随着时间的流逝,Apache Spark将继续发展自己的生态系统,变得比以前更加通用。在大数据已成为规范的世界中,组织将需要找到最佳方式来利用它。从这些Apache Spark用例可以看出,未来几年将有很多机会来了解Spark的真正功能。

随着越来越多的组织认识到从批处理过渡到实时数据分析的好处,Apache Spark的定位是可以在众多行业中获得广泛而快速的采用。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/dianzi/13430427.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-08-04
下一篇 2023-08-04

发表评论

登录后才能评论

评论列表(0条)

保存