什么是“大数据”，如何理解“大数据”_物联网

你好，大数据是指巨量的数据，指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。

当下，大数据技术作为新兴技术被许多互联网大厂所需，以华为为例。

1、华为云推出大数据稽核方案解决偷逃费

很多朋友可能发现,部分省界收费站变少而ETC通道在增加,高速公路的出行体验比以前更加顺畅。然而,在公众体验节省费用、便捷通行等利好的同时,高速公路的管理运营单位却饱受新情况的困扰。

部分车主偷逃费方式多样化,包括换卡逃费、车头挂车分离逃费、倒换电子标签、ETC车道跟车逃费等。同时偷逃费行为向专业化、团伙化演变,给高速运营单位带来大量经济损失和严峻挑战。

目前收费卡口仍主要使用传统稽核方法。传统方式通常基于初步的车辆行驶异常信息作筛查依据,如频繁进出站等,却难以发现大量逃费,存在的主要问题是:

大数据分析应用较少,缺乏数据深度分析

基本以收费数据为主,视频/等辅助证据不足

依赖大量人工进行稽核,效率低下

针对传统稽核方法的不足之处,华为云正式推出高速公路大数据稽核解决方案。

该方案基于华为云业界领先的云数字平台,结合华为在高速公路行业的深厚积淀,利用大数据、人工智能、云计算等技术,实现了海量通行记录数据的偷逃费自动分析,并结合门架摄像头抓拍的图像记录实现偷逃费车辆的精准识别,保障高速业主收益。

华为云大数据稽核解决方案包括三大平台:

AI边缘稽核平台,基于华为自研鲲鹏920和升腾310芯片+智能边缘平台IEF Edge架构,实现30+车辆特征和上万种车型的识别、稽核场景的实时处理,车辆通行照片的存储;

大数据稽核平台,主要包括基础设施层、平台层、使能层、应用层:

基础设施层:提供计算、存储、网络等基础资源

平台层:提供智能数据湖平台DAYU、AI开发平台ModelArts、边缘管理平台IEF、数据库及中间件等通用平台及组件

使能层:提供车辆识别算法、以图搜图、路径还原等基础能力

应用层:包括稽核系统、客服系统等其他公共服务类系统,其中稽核系统主要实现偷逃费模型、通行记录分析、证据链管理、信用管理、黑白名单管理等稽核相关功能

车辆特征训练开发平台,实现新的车型识别和车辆特征识别能力的持续提升,车辆异常通行照片的持久存储;其中ModelArts是一站式AI训练开发平台,提供车型和车辆特征的海量数据预处理及半自动化标注、大规模分布式训练、车辆识别模型自动化生成、云边按需部署模型等能力。

2、华为大数据工程师

华为云致力于为客户提供高度可信的业务运行环境,易获取、按需使用、d性扩展的云安全服务,帮助客户保护云上的应用系统和重要数据,华为云已获得了CSA STAR、ISO安全体系等20多个安全合规认证,并在2018年就高分通过了等保四级测评。

目前，包括腾讯、阿里等互联网头部企业在内的大厂，均在积极使用大数据、云计算等技术为产品赋能。

例如最早使用大数据技术实现音乐推荐个性化的网易云音乐、在电商平台普遍使用的商品推荐功能等等，均是基于大数据技术运用的代表。

以华为为例，华为给1-3年经验的大数据开发工程师开到了高达4万的月薪，在其他大厂的招聘中30k-60k的大数据开发工程师，也只要1-3年工作经验，可以说大数据、云计算仍是当下的红利岗位。

希望我的回答对你有所帮助！

随着“大数据时代”的来临，企业越来越重视数据的作用，数据给企业带来的价值也越来越多。本文档将介绍大数据给企业带来的机遇与挑战以及企业的大数据解决方案。

第一步先搞清楚什么是大数据？他不是简单的大量数据或海量数据，而是有着4V特征的数据金矿。他给我们的企业会带来机遇与挑战。

第二步我们根据大数据的特征，分析企业大数据平台要迎接大数据的挑战，应该具备什么样的能力。

第三部分，基于大数据平台要求，我们提出一个企业大数据的技术解决方案，介绍解决方案是如何解决大数据难题。

最后我看一看大数据应用当前存在的问题，未来将会怎样发展。

什么是大数据？

从数据角度看，大数据不是简单的大和多，大数据致电一把柒叁耳零一泗贰五领，而是有着4V的特征。简单说就是体量大、样式多、速度快、价值低。

体量大：最新研究报告，到2020年，全球数据使用量预计暴增44倍，达到352ZB。我们说大数据时，一般企业数据量要达到PB级才能称为大数据。

样式多：除了量大，大数据还包括了结构化数据和非结构化数据，邮件，Word,，音频信息，视频信息等各种类型数据，已经不是以往的关系型数据库可以解决的了。

速度快：这里说的是数据采集的速度，随着电子商务、移动办公、穿戴设备、物联网、智能小区等等的发展，数据产生的速度已经演进到秒级。企业要求能够实时获取数据，实时进行决策。

价值低：指的是价值密度，整个数据的价值是越来越高，但是因为数据量的壮大，数据价值密度也相应降低，无价值数据要占据大部分，企业需要从海量的业务中寻找价值。

从开发人员角度看，大数据和以往的数据库技术、数据仓库技术是不同的，他代表以Hadoop、Spark为首的一系列新技术。

这类技术的显著特点是：分布式、内存计算。

分布式：简单的说，分布式就是将复杂的、费时的任务拆分为多个细小的任务，并行处理。这里的任务就包含了数据采集、数据存储、数据处理。

内存计算：实质上就是CPU直接从内存而非硬盘上读取数据，并对数据进行计算、分析。内存计算非常适合处理海量的数据，以及需要实时获得结果的数据。比如可以将一个企业近十年几乎所有的财务、营销、市场等各方面的数据一次性地保存在内存里，并在此基础上进行数据的分析。

数据挖掘：大数据的核心实际上还应该包括数据挖掘技术，这是一个和统计学联系紧密的技术，粗略的划分为分类、聚类、预测、关联四大类，可从大量的、不完全的、模糊的数据中利用数学方法，提取出潜在的规律或知识。

大数据平台要求

大数据的能力分为数据采集、数据存储、数据计算或处理、数据挖掘、数据展现五个方面。

数据采集：需要对于海量数据、实时数据的采集能力，这是数据利用的第一步。

数据存储：对应大数据特点，需要大容量、高容错、高效率的存储能力，这是数据利用的基础。

数据计算：需要强大、廉价、快速的数据处理货计算能力，强大对应大数据的量大、类型多，廉价对应大数据的价值密度低，快速对应大数据的速度快，这是大数据能够发展的关键。

数据挖掘：要能够全角度、多方位的立体分析挖掘数据价值，应用好数据挖掘才能将数据转化为价值，这是数据利用的核心。

数据展现：多途径、直观、丰富的数据展现形式是数据的外在形象，这是数据应用的亮点，是能够得到用户认可的窗口。

以上是对于大数据平台需要解决的问题，必须具备的能力，数据提出的要求。

技术解决方案

企业大数据解决方案从数据处理流程上分为数据采集层、数据存储层、数据计算层、数据挖掘层、数据展现层，每一层解决大数据所需的关键难题。其中标黄的部分是传统数据处理技术。

数据采集层：

数据采集技术分为实时采集和定时采集，实时采集采用Oracle GoldenGate等工具，实时增量采集数据，保证数据的及时性；定时采集采用SAP Data Services等工具相结合的方式，定时抽取数据，主要用于大批量、非实时性数据。加入kettle、sqoop等分布式ETL工具，丰富多样化数据抽取服务，同时加入整合实时数据的kafka服务，处理大量实时数据。

数据存储层：

数据存储区在传统oracle的基础上，加入分布式文件系统、分布式列式数据库、内存文件系统、内存数据库、全文搜索等模块。其中，分布式文件系统ceph由于拥有数据分布均衡，并行化度高等特性，所以用于存储非结构化数据；分布式文件系统Hdfs由于拥有极佳的扩展性和兼容性，用于存储其他结构化数据；列式存储数据库hbase主要用于存储特定需求的海量数据，以供运算查询等服务。

数据计算层：

计算层采用标准SQL查询、全文搜索、交互分析Spark、实时数据处理Streaming、离线批处理、图计算Graph X等技术，对结构化数据、非结构化数据、实时数据、大批量数据进行数据计算处理。

核心计算方式spark内存计算引擎的优势：

轻量级快速处理。

易于使用，Spark支持多语言。

支持复杂查询。

实时的流处理。

可以与Hadoop和已存Hadoop数据整合。

可以与Hive整合

数据挖掘层：采用Spark_Mllib、R、Mhout等分析工具，依据模型分析引擎创建模型、算法库。由模型算法库对模型进行训练，生成模型实例，最后依据模型实例进行实时决策及离线决策。

数据展现层：提供门户展现、数据图表、电子邮件、办公软件等多种数据分析方式，在展现途径上可支持大屏幕、电脑桌面、移动终端等。

结束语

随着高性能计算机、海量数据的存储和管理的流程的不断优化，技术能够解决的问题终将不会成为问题。真正会制约或者成为大数据发展和应用瓶颈的有三个环节：

第一、数据收集和提取的合法性，数据隐私的保护和数据隐私应用之间的权衡。

任何企业或机构从人群中提取私人数据，用户都有知情权，将用户的隐私数据用于商业行为时，都需要得到用户的认可。然而，目前，中国乃至全世界对于用户隐私应当如何保护、商业规则应当如何制定、触犯用户的隐私权应当如何惩治、法律规范应当如何制定等等一系列管理问题都滞后于大数据的发展速度。未来很多大数据业务在最初发展阶段将会游走在灰色地带，当商业运作初具规模并开始对大批消费者和公司都产生影响之后，相关的法律法规以及市场规范才会被迫加速制定出来。可以预计的是，尽管大数据技术层面的应用可以无限广阔，但是由于受到数据采集的限制，能够用于商业应用、服务于人们的数据要远远小于理论上大数据能够采集和处理的数据。数据源头的采集受限将限制大数据的商业应用。

第二、大数据发挥协同效应需要产业链各个环节的企业达成竞争与合作的平衡。

大数据对基于其生态圈中的企业提出了更多的合作要求。如果没有对整体产业链的宏观把握，单个企业仅仅基于自己掌握的独立数据，无法了解产业链各个环节数据之间的关系，对消费者做出的判断和影响也十分有限。在一些信息不对称比较明显的行业，例如银行业以及保险业，企业之间数据共享的需求更为迫切。例如，银行业和保险业通常都需要建立一个行业共享的数据库，让其成员能够了解到单个用户的信用记录，消除担保方和消费者之间的信息不对称，让交易进行的更为顺利。然而，在很多情况下，这些需要共享信息的企业之间竞争和合作的关系同时存在，企业在共享数据之前，需要权衡利弊、避免在共享数据的同时丧失了其竞争优势。此外，当很多商家合作起来，很容易形成卖家同盟而导致消费者利益受到损失，影响到竞争的公平性。大数据最具有想象力的发展方向是将不同的行业的数据整合起来，提供全方位立体的数据绘图，力图从系统的角度了解并重塑用户需求。然而，交叉行业数据共享需要平衡太多企业的利益关系，如果没有中立的第三方机构出面，协调所有参与企业之间的关系、制定数据共性及应用的规则，将限制大数据的用武之地。权威第三方中立机构的缺乏将制约大数据发挥出其最大的潜力。

第三、大数据结论的解读和应用。

大数据可以从数据分析的层面上揭示各个变量之间可能的关联，但是数据层面上的关联如何具象到行业实践中？如何制定可执行方案应用大数据的结论？这些问题要求执行者不但能够解读大数据，同时还需深谙行业发展各个要素之间的关联。这一环节基于大数据技术的发展但又涉及到管理和执行等各方面因素。在这一环节中，人的因素成为制胜关键。从技术角度，执行人需要理解大数据技术，能够解读大数据分析的结论；从行业角度，执行人要非常了解行业各个生产环节的流程的关系、各要素之间的可能关联，并且将大数据得到的结论和行业的具体执行环节一一对应起来；从管理的角度，执行人需要制定出可执行的解决问题的方案，并且确保这一方案和管理流程没有冲突，在解决问题的同时，没有制造出新的问题。这些需求，不但要求执行人深谙技术，同时应当是一个卓越的管理者，有系统论的思维，能够从复杂系统的角度关联地看待大数据与行业的关系。此类人才的稀缺性将制约大数据的发展。

1、大数据（Big Data）又称为巨量资料，指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。

2、特点：大数据分析相比于传统的数据仓库应用，具有数据量大、查询分析复杂等特点。

2、“大数据”概念最早由维克托·迈尔·舍恩伯格和肯尼斯·库克耶在编写《大数据时代》中提出，指不用随机分析法（抽样调查）的捷径，而是采用所有数据进行分析处理。大数据有4V特点，即Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值）。

3、对于“大数据”（Big data）研究机构Gartner给出了定义，“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化处理。换言之，如果把大数据比作一种产业，那么这种产业实现盈利的关键，在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”。

4、从技术上看，大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘，但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

5、随着云时代的来临，大数据（Big data）也吸引了越来越多的关注。《著云台》的分析师团队认为，大数据（Big data）通常用来形容一个公司创造的大量非结构化数据和半结构化数据，这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起，因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/dianzi/13404963.html

什么是“大数据”，如何理解“大数据”

发表评论

评论列表（0条）