如何利用hadhoop构建物联网平台_物联网

常见的大数据术语表(中英对照简版)：
A
聚合(Aggregation) – 搜索、合并、显示数据的过程
算法(Algorithms) – 可以完成某种数据分析的数学公式
分析法(Analytics) – 用于发现数据的内在涵义
异常检测(Anomaly detection) –
在数据集中搜索与预期模式或行为不匹配的数据项。除了“Anomalies”,用来表示异常的词有以下几种：outliers, exceptions,
surprises, contaminants他们通常可提供关键的可执行信息
匿名化(Anonymization) – 使数据匿名，即移除所有与个人隐私相关的数据
应用(Application) – 实现某种特定功能的计算机软件
人工智能(Artificial Intelligence) –
研发智能机器和智能软件，这些智能设备能够感知周遭的环境，并根据要求作出相应的反应，甚至能自我学习
B
行为分析法(Behavioural Analytics) –
这种分析法是根据用户的行为如“怎么做”，“为什么这么做”，以及“做了什么”来得出结论，而不是仅仅针对人物和时间的一门分析学科，它着眼于数据中的人性化模式
大数据科学家(Big Data Scientist) – 能够设计大数据算法使得大数据变得有用的人
大数据创业公司(Big data startup) – 指研发最新大数据技术的新兴公司
生物测定术(Biometrics) – 根据个人的特征进行身份识别
B字节 (BB: Brontobytes) – 约等于1000 YB(Yottabytes)，相当于未来数字化宇宙的大小。1
B字节包含了27个0!
商业智能(Business Intelligence) – 是一系列理论、方法学和过程，使得数据更容易被理解
C
分类分析(Classification analysis) – 从数据中获得重要的相关性信息的系统化过程; 这类数据也被称为元数据(meta
data),是描述数据的数据
云计算(Cloud computing) – 构建在网络上的分布式计算系统，数据是存储于机房外的(即云端)
聚类分析(Clustering analysis) –
它是将相似的对象聚合在一起，每类相似的对象组合成一个聚类(也叫作簇)的过程。这种分析方法的目的在于分析数据间的差异和相似性
冷数据存储(Cold data storage) – 在低功耗服务器上存储那些几乎不被使用的旧数据。但这些数据检索起来将会很耗时
对比分析(Comparative analysis) – 在非常大的数据集中进行模式匹配时，进行一步步的对比和计算过程得到分析结果
复杂结构的数据(Complex structured data) –
由两个或多个复杂而相互关联部分组成的数据，这类数据不能简单地由结构化查询语言或工具(SQL)解析
计算机产生的数据(Computer generated data) – 如日志文件这类由计算机生成的数据
并发(Concurrency) – 同时执行多个任务或运行多个进程
相关性分析(Correlation analysis) – 是一种数据分析方法，用于分析变量之间是否存在正相关，或者负相关
客户关系管理(CRM: Customer Relationship Management) –
用于管理销售、业务过程的一种技术，大数据将影响公司的客户关系管理的策略
D
仪表板(Dashboard) – 使用算法分析数据，并将结果用图表方式显示于仪表板中
数据聚合工具(Data aggregation tools) – 将分散于众多数据源的数据转化成一个全新数据源的过程
数据分析师(Data analyst) – 从事数据分析、建模、清理、处理的专业人员
数据库(Database) – 一个以某种特定的技术来存储数据集合的仓库
数据库即服务(Database-as-a-Service) – 部署在云端的数据库，即用即付，例如亚马逊云服务(AWS: Amazon Web
Services)
数据库管理系统(DBMS: Database Management System) – 收集、存储数据，并提供数据的访问
数据中心(Data centre) – 一个实体地点，放置了用来存储数据的服务器
数据清洗(Data cleansing) – 对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性
数据管理员(Data custodian) – 负责维护数据存储所需技术环境的专业技术人员
数据道德准则(Data ethical guidelines) – 这些准则有助于组织机构使其数据透明化，保证数据的简洁、安全及隐私
数据订阅(Data feed) – 一种数据流，例如Twitter订阅和RSS
数据集市(Data marketplace) – 进行数据集买卖的在线交易场所
数据挖掘(Data mining) – 从数据集中发掘特定模式或信息的过程
数据建模(Data modelling) – 使用数据建模技术来分析数据对象，以此洞悉数据的内在涵义
数据集(Data set) – 大量数据的集合
数据虚拟化(Data virtualization) –
数据整合的过程，以此获得更多的数据信息，这个过程通常会引入其他技术，例如数据库，应用程序，文件系统，网页技术，大数据技术等等
去身份识别(De-identification) – 也称为匿名化(anonymization)，确保个人不会通过数据被识别
判别分析(Discriminant analysis) –
将数据分类;按不同的分类方式，可将数据分配到不同的群组，类别或者目录。是一种统计分析法，可以对数据中某些群组或集群的已知信息进行分析，并从中获取分类规则。
分布式文件系统(Distributed File System) – 提供简化的，高可用的方式来存储、分析、处理数据的系统
文件存贮数据库(Document Store Databases) – 又称为文档数据库(document-oriented database),
为存储、管理、恢复文档数据而专门设计的数据库，这类文档数据也称为半结构化数据
E
探索性分析(Exploratory analysis) –
在没有标准的流程或方法的情况下从数据中发掘模式。是一种发掘数据和数据集主要特性的一种方法
E字节(EB: Exabytes) – 约等于1000 PB(petabytes), 约等于1百万 GB。如今全球每天所制造的新信息量大约为1
EB
提取-转换-加载(ETL: Extract, Transform and Load) –
是一种用于数据库或者数据仓库的处理过程。即从各种不同的数据源提取(E)数据，并转换(T)成能满足业务需要的数据，最后将其加载(L)到数据库
F
故障切换(Failover) – 当系统中某个服务器发生故障时，能自动地将运行任务切换到另一个可用服务器或节点上
容错设计(Fault-tolerant design) – 一个支持容错设计的系统应该能够做到当某一部分出现故障也能继续运行
G
游戏化(Gamification) –
在其他非游戏领域中运用游戏的思维和机制，这种方法可以以一种十分友好的方式进行数据的创建和侦测，非常有效。
图形数据库(Graph Databases) –
运用图形结构(例如，一组有限的有序对，或者某种实体)来存储数据，这种图形存储结构包括边缘、属性和节点。它提供了相邻节点间的自由索引功能，也就是说，数据库中每个元素间都与其他相邻元素直接关联。
网格计算(Grid computing) – 将许多分布在不同地点的计算机连接在一起，用以处理某个特定问题，通常是通过云将计算机相连在一起。
H
Hadoop – 一个开源的分布式系统基础框架，可用于开发分布式程序，进行大数据的运算与存储。
Hadoop数据库(HBase) – 一个开源的、非关系型、分布式数据库，与Hadoop框架共同使用
HDFS – Hadoop分布式文件系统(Hadoop Distributed File
System);是一个被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统
高性能计算(HPC: High-Performance-Computing) – 使用超级计算机来解决极其复杂的计算问题
I
内存数据库(IMDB: In-memory) –
一种数据库管理系统，与普通数据库管理系统不同之处在于，它用主存来存储数据，而非硬盘。其特点在于能高速地进行数据的处理和存取。
物联网(Internet of Things) – 在普通的设备中装上传感器，使这些设备能够在任何时间任何地点与网络相连。
J
法律上的数据一致性(Juridical data compliance) –
当你使用的云计算解决方案，将你的数据存储于不同的国家或不同的大陆时，就会与这个概念扯上关系了。你需要留意这些存储在不同国家的数据是否符合当地的法律。
K
键值数据库(KeyValue Databases) –
数据的存储方式是使用一个特定的键，指向一个特定的数据记录，这种方式使得数据的查找更加方便快捷。键值数据库中所存的数据通常为编程语言中基本数据类型的数据。
L
延迟(Latency) – 表示系统时间的延迟
遗留系统(Legacy system) – 是一种旧的应用程序，或是旧的技术，或是旧的计算系统，现在已经不再支持了。
负载均衡(Load balancing) – 将工作量分配到多台电脑或服务器上，以获得最优结果和最大的系统利用率。
位置信息(Location data) – GPS信息，即地理位置信息。
日志文件(Log file) – 由计算机系统自动生成的文件，记录系统的运行过程。
M
M2M数据(Machine2Machine data) – 两台或多台机器间交流与传输的内容
机器数据(Machine data) – 由传感器或算法在机器上产生的数据
机器学习(Machine learning) –
人工智能的一部分，指的是机器能够从它们所完成的任务中进行自我学习，通过长期的累积实现自我改进。
MapReduce – 是处理大规模数据的一种软件框架(Map: 映射，Reduce: 归纳)。
大规模并行处理(MPP: Massively Parallel Processing) –
同时使用多个处理器(或多台计算机)处理同一个计算任务。
元数据(Metadata) – 被称为描述数据的数据，即描述数据数据属性(数据是什么)的信息。
MongoDB – 一种开源的非关系型数据库(NoSQL database)
多维数据库(Multi-Dimensional Databases) – 用于优化数据联机分析处理(OLAP)程序，优化数据仓库的一种数据库。
多值数据库(MultiValue Databases) – 是一种非关系型数据库(NoSQL),
一种特殊的多维数据库：能处理3个维度的数据。主要针对非常长的字符串，能够完美地处理HTML和XML中的字串。
N
自然语言处理(Natural Language Processing) –
是计算机科学的一个分支领域，它研究如何实现计算机与人类语言之间的交互。
网络分析(Network analysis) – 分析网络或图论中节点间的关系，即分析网络中节点间的连接和强度关系。
NewSQL – 一个优雅的、定义良好的数据库系统，比SQL更易学习和使用，比NoSQL更晚提出的新型数据库
NoSQL –
顾名思义，就是“不使用SQL”的数据库。这类数据库泛指传统关系型数据库以外的其他类型的数据库。这类数据库有更强的一致性，能处理超大规模和高并发的数据。
O
对象数据库(Object Databases) –
(也称为面象对象数据库)以对象的形式存储数据，用于面向对象编程。它不同于关系型数据库和图形数据库，大部分对象数据库都提供一种查询语言，允许使用声明式编程(declarative
programming)访问对象
基于对象图像分析(Object-based Image Analysis) –
数字图像分析方法是对每一个像素的数据进行分析，而基于对象的图像分析方法则只分析相关像素的数据，这些相关像素被称为对象或图像对象。
*** 作型数据库(Operational Databases) –
这类数据库可以完成一个组织机构的常规 *** 作，对商业运营非常重要，一般使用在线事务处理，允许用户访问、收集、检索公司内部的具体信息。
优化分析(Optimization analysis) –
在产品设计周期依靠算法来实现的优化过程，在这一过程中，公司可以设计各种各样的产品并测试这些产品是否满足预设值。
本体论(Ontology) – 表示知识本体，用于定义一个领域中的概念集及概念之间的关系的一种哲学思想。(译者注:
数据被提高到哲学的高度，被赋予了世界本体的意义，成为一个独立的客观数据世界)
异常值检测(Outlier detection) –
异常值是指严重偏离一个数据集或一个数据组合总平均值的对象，该对象与数据集中的其他它相去甚远，因此，异常值的出现意味着系统发生问题，需要对此另加分析。
P
模式识别(Pattern Recognition) – 通过算法来识别数据中的模式，并对同一数据源中的新数据作出预测
P字节(PB: Petabytes) – 约等于1000 TB(terabytes), 约等于1百万 GB
(gigabytes)。欧洲核子研究中心(CERN)大型强子对撞机每秒产生的粒子个数就约为1 PB
平台即服务(PaaS: Platform-as-a-Service) – 为云计算解决方案提供所有必需的基础平台的一种服务
预测分析(Predictive analysis) –
大数据分析方法中最有价值的一种分析方法，这种方法有助于预测个人未来(近期)的行为，例如某人很可能会买某些商品，可能会访问某些网站，做某些事情或者产生某种行为。通过使用各种不同的数据集，例如历史数据，事务数据，社交数据，或者客户的个人信息数据，来识别风险和机遇
隐私(Privacy) – 把具有可识别出个人信息的数据与其他数据分离开，以确保用户隐私。
公共数据(Public data) – 由公共基金创建的公共信息或公共数据集。
Q
数字化自我(Quantified Self) – 使用应用程序跟踪用户一天的一举一动，从而更好地理解其相关的行为
查询(Query) – 查找某个问题答案的相关信息
R
再识别(Re-identification) – 将多个数据集合并在一起，从匿名化的数据中识别出个人信息
回归分析(Regression analysis) –
确定两个变量间的依赖关系。这种方法假设两个变量之间存在单向的因果关系(译者注：自变量，因变量，二者不可互换)
RFID – 射频识别; 这种识别技术使用一种无线非接触式射频电磁场传感器来传输数据
实时数据(Real-time data) – 指在几毫秒内被创建、处理、存储、分析并显示的数据
推荐引擎(Recommendation engine) – 推荐引擎算法根据用户之前的购买行为或其他购买行为向用户推荐某种产品
路径分析(Routing analysis) –
针对某种运输方法通过使用多种不同的变量分析从而找到一条最优路径，以达到降低燃料费用，提高效率的目的
S
半结构化数据(Semi-structured data) –
半结构化数据并不具有结构化数据严格的存储结构，但它可以使用标签或其他形式的标记方式以保证数据的层次结构
情感分析(Sentiment Analysis) – 通过算法分析出人们是如何看待某些话题
信号分析(Signal analysis) – 指通过度量随时间或空间变化的物理量来分析产品的性能。特别是使用传感器数据。
相似性搜索(Similarity searches) – 在数据库中查询最相似的对象，这里所说的数据对象可以是任意类型的数据
仿真分析(Simulation analysis) –
仿真是指模拟真实环境中进程或系统的 *** 作。仿真分析可以在仿真时考虑多种不同的变量，确保产品性能达到最优
智能网格(Smart grid) – 是指在能源网中使用传感器实时监控其运行状态，有助于提高效率
软件即服务(SaaS: Software-as-a-Service) – 基于Web的通过浏览器使用的一种应用软件
空间分析(Spatial analysis) – 空间分析法分析地理信息或拓扑信息这类空间数据，从中得出分布在地理空间中的数据的模式和规律
SQL – 在关系型数据库中，用于检索数据的一种编程语言
结构化数据(Structured data)
-可以组织成行列结构，可识别的数据。这类数据通常是一条记录，或者一个文件，或者是被正确标记过的数据中的某一个字段，并且可以被精确地定位到。
T
T字节(TB: Terabytes) – 约等于1000 GB(gigabytes)。1 TB容量可以存储约300小时的高清视频。
时序分析(Time series analysis) –
分析在重复测量时间里获得的定义良好的数据。分析的数据必须是良好定义的，并且要取自相同时间间隔的连续时间点。
拓扑数据分析(Topological Data Analysis) –
拓扑数据分析主要关注三点：复合数据模型、集群的识别、以及数据的统计学意义。
交易数据(Transactional data) – 随时间变化的动态数据
透明性(Transparency) – 消费者想要知道他们的数据有什么作用、被作何处理，而组织机构则把这些信息都透明化了。
U
非结构化数据(Un-structured data) – 非结构化数据一般被认为是大量纯文本数据，其中还可能包含日期，数字和实例。
V
价值(Value) – (译者注：大数据4V特点之一)
所有可用的数据，能为组织机构、社会、消费者创造出巨大的价值。这意味着各大企业及整个产业都将从大数据中获益。
可变性(Variability) – 也就是说，数据的含义总是在(快速)变化的。例如，一个词在相同的推文中可以有完全不同的意思。
多样(Variety) – (译者注：大数据4V特点之一)
数据总是以各种不同的形式呈现，如结构化数据，半结构化数据，非结构化数据，甚至还有复杂结构化数据
高速(Velocity) – (译者注：大数据4V特点之一) 在大数据时代，数据的创建、存储、分析、虚拟化都要求被高速处理。
真实性(Veracity) – 组织机构需要确保数据的真实性，才能保证数据分析的正确性。因此，真实性(Veracity)是指数据的正确性。
可视化(Visualization) –
只有正确的可视化，原始数据才可被投入使用。这里的“可视化”并非普通的图型或饼图，可视化指是的复杂的图表，图表中包含大量的数据信息，但可以被很容易地理解和阅读。
大量(Volume) – (译者注：大数据4V特点之一) 指数据量，范围从Megabytes至Brontobytes
W
天气数据(Weather data) – 是一种重要的开放公共数据来源，如果与其他数据来源合成在一起，可以为相关组织机构提供深入分析的依据
X
XML数据库(XML Databases) –
XML数据库是一种以XML格式存储数据的数据库。XML数据库通常与面向文档型数据库相关联，开发人员可以对XML数据库的数据进行查询，导出以及按指定的格式序列化
Y
Y字节 (Yottabytes) – 约等于1000 ZB (Zettabytes),
约等于250万亿张DVD的数据容量。现今，整个数字化宇宙的数据量为1 YB, 并且将每18年翻一番。
Z
Z字节 (ZB: Zettabytes) – 约等于1000 EB (Exabytes), 约等于1百万
TB。据预测，到2016年全球范围内每天网络上通过的信息大约能达到1 ZB。
附：存储容量单位换算表：
1 Bit(比特) = Binary Digit
8 Bits = 1 Byte(字节)
1,000 Bytes = 1 Kilobyte
1,000 Kilobytes = 1 Megabyte
1,000 Megabytes = 1 Gigabyte
1,000 Gigabytes = 1 Terabyte
1,000 Terabytes = 1 Petabyte
1,000 Petabytes = 1 Exabyte
1,000 Exabytes = 1 Zettabyte
1,000 Zettabytes = 1 Yottabyte
1,000 Yottabytes = 1 Brontobyte
1,000 Brontobytes = 1 Geopbyte

当前的互联网只限于信息共享，网络则被认为是互联网发展的第三阶段。网络可以构造地区性的网络、企事业内部网络、局域网网络，甚至家庭网络和个人网络。网络的根本特征并不一定是它的规模，而是资源共享，消除资源孤岛。网络技术具有很大的应用潜力，能同时调动数百万台计算机完成某一个计算任务，能汇集数千科学家之力共同完成同一项科学试验，还可以让分布在各地的人们在虚拟环境中实现面对面交流。发展历程网络研究起源于过去十年美国政府资助的高性能计算科研项目。这项研究的目标是将跨地域的多台高性能计算机、大型数据库、大型的科研设备、通信设备、可视化设备和各种传感器等整合成一个巨大的超级计算机系统，以支持科学计算和科学研究。微软公司把开发力量集中在数据网络上，关注使用网络共享信息，而不是网络的计算能力，这反映了学术和研究领域内的分歧。事实上，很多用于学术领域的网络技术都能够成为商业应用。 Argonne Globus是美国阿贡（Argonne）国家实验室的网络技术研发项目，全美12所大学和研究机构参与了该项目。Globus对资源管理、安全、信息服务及数据管理等网络计算的关键理论进行研究，开发能在各种平台上运行的网络计算工具软件，帮助规划和组建大型的网络试验平台，开发适合大型网络系统运行的大型应用程序。目前，Globus技术已在美国航天局网络、欧洲数据网络、美国国家技术网络等8个项目中得到应用。2005年8月，美国国际商用机器公司（IBM）宣布投入数十亿美元研发网络计算，与Globus合作开发开放的网络计算标准，并宣称网络的价值不仅仅限于科学计算，商业应用也有很好的前景。网络计算和Globus从开始幕后走到前台，受到前所未有的关注。中国非常重视发展网络技术，由863计划“高性能计算机及其核心软件”重大专项支持建设的中国国家网络项目在高性能计算机、网络软件、网络环境和应用等方面取得了创新性成果。具有18万亿次聚合计算能力、支持网络研究和网络应用的网络试验床——中国国家网络，已于2005年12月21日正式开通运行。这意味着通过网络技术，中国已能有效整合全国范围内大型计算机的计算资源，形成一个强大的计算平台，帮助科研单位和科技工作者等实现计算资源共享、数据共享和协同合作。关键技术网络的关键技术有网络结点、宽带网络系统、资源管理和任务调度工具、应用层的可视化工具。网络结点是网络计算资源的提供者，包括高端服务器、集群系统、MPP系统大型存储设备、数据库等。宽带网络系统是在网络计算环境中，提供高性能通信的必要手段。资源管理和任务调度工具用来解决资源的描述、组织和管理等关键问题。任务调度工具根据当前系统的负载情况，对系统内的任务进行动态调度，提高系统的运行效率。网络计算主要是科学计算，它往往伴随着海量数据。如果把计算结果转换成直观的图形信息，就能帮助研究人员摆脱理解数据的困难。这需要开发能在网络计算中传输和读取，并提供友好用户界面的可视化工具。研究现状网络计算通常着眼于大型应用项目，按照Globus技术，大型应用项目应由许多组织协同完成，它们形成一个“虚拟组织”，各组织拥有的计算资源在虚拟组织里共享，协同完成项目。对于共享而言，有价值的不是设备本身而是实体的接口或界面。从技术角度看，共享是资源或实体间的互 *** 作。Globus技术设定，网络环境下的互 *** 作意味着需要开发一套通用协议，用于描述消息的格式和消息交换的规则。在协议之上则需要开发一系列服务，这与建立在TCP/IP（传输控制协议/网际协议）上的万维网服务原理相同。在服务中先定义应用编程接口，基于这些接口再构建软件开发工具。 Globus网络计算协议建立在网际协议之上，以网际协议中的通信、路由、名字解析等功能为基础。Globus协议分为构造层、连接层、资源层、汇集层和应用层五层。每层都有各自的服务、应用编程接口和软件开发工具、上层协议调用下层协议的服务。网络内的全局应用都需通过协议提供的服务调用 *** 作系统。构造层功能是向上提供网络中可供共享的资源，是物理或逻辑实体。常用的共享资源包括处理能力、存储系统、目录、网络资源、分布式文件系统、分布式计算机池、计算机集群等。连接层是网络中网络事务处理通信与授权控制的核心协议。构造层提交的各资源间的数据交换都在这一层控制下实现的。各资源间的授权验证、安全控制也在此实现。资源层的作用是对单个资源实施控制，与可用资源进行安全握手、对资源做初始化、监测资源运行状况、统计与付费有关的资源使用数据。汇集层的作用是将资源层提交的受控资源汇集在一起，供虚拟组织的应用程序共享、调用。为了对来自应用的共享进行管理和控制，汇集层提供目录服务、资源分配、日程安排、资源代理、资源监测诊断、网络启动、负荷控制、账户管理等多种功能。应用层是网络上用户的应用程序，它先通过各层的应用编程接口调用相应的服务，再通过服务调用网络上的资源来完成任务。应用程序的开发涉及大量库函数。为便于网络应用程序的开发，需要构建支持网络计算的库函数。目前，Globus体系结构已为一些大型网络所采用。研究人员已经在天气预报、高能物理实验、航空器研究等领域开发了一些基于Globus网络计算的应用程序。虽然这些应用仍属试验性质，但它证明了网络计算可以完成不少超级计算机难以胜任的大型应用任务。可以预见，网络技术将很快掀起下一波互联网浪潮。面对即将到来的第三代互联网应用，很多发达国家都投入了大量研究资金，希望能抓住机遇，掌握未来的命运。中国也加强了网络方面的投入。中科院计算所为自己的网络起名为“织女星网络”（Vega Grid），目标是具有大规模数据处理、高性能计算、资源共享和提高资源利用率的能力。与国内外其他网络研究项目相比，织女星网络的最大特点是“服务网络”。中国许多行业，如能源、交通、气象、水利、农林、教育、环保等对高性能计算网络即信息网络的需求非常巨大。预计在最近两三年内，就能看到更多的网络技术应用实例。应用领域网络技术的应用领域很广，主要有以下几方面。分布式超级计算分布式超级计算将分布在不同地点的超级计算机用高速网络连接起来，并用网络中间件软件“粘合”起来，形成比单台超级计算机强大得多的计算平台。分布式仪器系统分布式仪器系统使用网络管理分布在各地的贵重仪器系统，提供远程访问仪器设备的手段，提高仪器的利用率，方便用户的使用。数据密集型计算并行计算技术往往是由一些计算密集型应用推动的，特别是一些带有巨大挑战性质的应用，大大促进了对高性能并行体系结构、编程环境、大规模可视化等领域的研究。数据密集型计算的应用比计算密集型的应用多得多，它对应的数据网络更侧重于数据的存储、传输和处理，计算网络则更侧重于计算能力的提高。在这个领域独占鳌头的项目是欧洲核子中心开展的数据网络（DataGrid）项目，其目标是处理2005年建成的大型强子对撞机源源不断产生的PB/s量级实验数据。远程沉浸这是一种特殊的网络化虚拟现实环境。它是对现实或历史的逼真反映，对高性能计算结果或数据库可视化。“沉浸”是指人可以完全融入其中：各地的参与者通过网络聚集在同一个虚拟空间里，既可以随意漫游，又可以相互沟通，还可以与虚拟环境交互，使之发生改变。目前，已经开发出几十个远程沉浸应用，包括虚拟历史博物馆、协同学习环境等。远程沉浸可以广泛应用于交互式科学可视化、教育、训练、艺术、娱乐、工业设计、信息可视化等许多领域。信息集成网络最初是以集成异构计算平台的身份出现，接着进入分布式海量数据处理领域。信息网络通过统一的信息交换架构和大量的中间件，向用户提供“信息随手可得”式的服务。网络信息集成将更多应用在商业上，分布在世界各地的应用程序和各种信息通过网络能进行无缝融合和沟通，从而形成崭新的商业机会。信息集成如信息网络、服务网络、知识网络等，是近几年网络流行起来的应用方向。2002年，Globus联盟和IBM在全球网络论坛上发布了开放性网络服务架构及其详细规范，把Globus标准与支持商用的万维网服务标准结合起来。2004年，Globus联盟、IBM和惠普（HP）等又联合发布了新的网络标准草案，把开放性网络服务架构详细规范I转换成6个用于扩展万维网服务的规范，网络服务已与万维网服务彻底融为一体，标志着网络商用化时代的来临。网络技术的发展，标准是关键。就像TCP/IP协议是因特网的核心一样，构建网络计算也需要对核心——标准协议和服务进行定义。目前，一些标准化团体正在积极行动。迄今为止，网络计算虽还没有正式的标准，但在核心技术上，相关机构与企业已达成一致，由美国阿贡国家实验室与南加州大学信息科学学院合作开发的Globus 计算工具软件已成为网络计算实际的标准，已有12家著名计算机和软件厂商宣布将采用Globus 计算工具软件。作为一种开放架构和开放标准基础设施，Globus 计算工具软件提供了构建网络应用所需的很多基本服务，如安全、资源发现、资源管理、数据访问等。目前所有重大的网络项目都是基于Globus 计算工具软件提供的协议与服务的。除了标准以外，安全和可管理性、人才的缺乏也是网络计算亟待解决的一个问题，否则它将无法成为企业的商业架构。在真正实现商业应用之前，还需要解决许多问题。即便如此，构建全球网络的前景仍是无法抗拒的。主要功能一般来说，计算机网络可以提供以下一些主要功能：资源共享网络的出现使资源共享变得很简单，交流的双方可以跨越时空的障碍，随时随地传递信息。信息传输与集中处理数据是通过网络传递到服务器中，由服务器集中处理后再回送到终端。负载均衡与分布处理负载均衡同样是网络的一大特长。举个典型的例子：一个大型ICP（Internet内容提供商）为了支持更多的用户访问他的网站，在全世界多个地方放置了相同内容的>

作者 | 宫学源

人工智能技术的应用，或许能帮助蓝色星球的科学家们摆脱无穷无尽实验的痛苦，加速重大科学理论的发现，将人类文明提升到新的台阶。

——题记

人工智能技术的潜力大家都有目共睹，但未来人工智能可以用来做什么，将会给人类社会带来多大的变革，也在考验我们的想象力。

尽管人工智能技术还处在初级发展阶段，但它现有的能力也足以改变众多领域，尤其是那些有着大量数据却无法有效利用的领域。

1 人工智能推动基础科学理论突破

实际上，材料、化学、物理等基础科学领域的研究过程中充满了“大数据”，从设计、实验、测试到证明等环节，科学家们都离不开数据的搜集、选择和分析。

由于物理、化学或力学规律的存在，这些领域的数据往往都是结构化的、高质量的以及可标注的。

人工智能技术（机器学习算法）擅长在海量数据中寻找“隐藏”的因果关系，能够快速处理科研中的结构化数据，因此得到了科研工作者的广泛关注。

人工智能在材料、化学、物理等领域的研究上展现出巨大优势，正在引领基础科研的“后现代化”。

以物理领域为例，人工智能的应用给粒子物理、空间物理等研究带来了前所未有的机遇。为寻找希格斯玻色子（上帝粒子），进一步理解物质的微观组成，欧洲核子研究中心（CERN）主导开发了大型强子对撞机（LHC）。

LHC是目前世界上最大的粒子加速，它每秒可产生一百万吉字节（GB）的数据，一小时内积累的数据竟然与Facebook一年的数据量相当。

有一些研究人员就想到，利用专用的硬件和软件，通过机器学习技术来实时决定哪些数据需要保存，哪些数据可以丢弃。

事实证明，机器学习算法可以至少做出其中70%的决定，能够大大减少人类科学家的工作量。

尽管人工智能商业化发展更容易受关注，但人工智能在基础科研中的应用，却更加激动人心。

因为社会生产力的变革，归根结底在于基础科研的进一步突破。

我们或许再也回不到有着牛顿、麦克斯韦和爱因斯坦等科学“巨人”的时代。

在那个时代，“巨人”们可以凭借着超越时代的智慧，在纸张上书写出简洁优美的定理，或者设计出轰动世界的实验。

像这样做出伟大工作的机会或许不多了，在这个时代，更多需要的是通过大量实验数据来获取真理的工作。

大到宇宙起源的探索，小到蛋白质分子的折叠，都离不开一批又一批科学家们前赴后继、执着探索。

人工智能技术的应用，或许能帮助蓝色星球的科学家们摆脱无穷无尽实验的痛苦，加速重大科学理论的发现，将人类文明提升到新的台阶。

2 人工智能推动社会生产效率快速提升

人工智能无疑是计算机应用的最高目标和终极愿景：

彻底将人类从重复机械劳动中解放出来，让人们从事真正符合人类智能水平、充满创造性的工作。

在60年的人工智能发展史中，已经诞生了机器翻译、图像识别、语音助手和个性推荐等影响深远的应用，人们的生活在不知不觉中已经发生了巨大变化。

未来，人工智能应用场景进一步延伸，是否能够带来社会生产效率的极大提升，引领人类进入新时代？

为了探索这一问题，曾在谷歌和百度担任高管的吴恩达于2017年成立了一家立足于解决 AI 转型问题的公司 Landing ai。

吴恩达通过一篇文章和一段视频在个人社交网站上宣布了该公司的成立，并表示希望人工智能能够改变人类的衣食住行等方方面面的生活，让人们从重复性劳动的精神苦役中解脱。

Landing的中文含义是“落地”，这家公司的目标是帮助传统企业用算法来降低成本、提升质量管理水平、消除供应链瓶颈等等。

截至目前，Landing ai已经选择了两个落地领域，分别是制造业和农业。

Landing ai最先与制造业巨头富士康达合作。

Landing ai尝试利用自动视觉检测、监督式学习和预测等技术，帮助富士康向智能制造、人工智能和大数据迈进，提升制造过程中AI应用的层次。

吴恩达认为，人工智能对制造业带来的影响将如同当初发明电力般强大，人工智能技术很适合解决目前制造业面临的一些挑战，如质量和产出不稳定、生产线设计d性不够、产能管理跟不上以及生产成本不断上涨等。

目前，工业互联网、智能制造和工业40等概念已经深入人心，传统企业都在向智能化、数据化转型，但生产过程中获取的大量数据如何应用又成了新的问题。Landing ai与富士康的合作，或许将给传统制造的从业者带来新的启示。

当然，制造业的核心竞争力还在于制造业本身，比如车床的精度、热处理炉的温度控制能力等等，农业的核心竞争力也在于农业本身，比如育种技术、转基因技术等等。

人工智能技术的主要价值在于提升决策能力，进一步提升生产效率，以及降低人的重复性劳动等方面，这就是人工智能为什么可以“赋能”各个行业的原因。

3 人工智能将有效改善人类的生存空间

自第一次工业革命以来，人类活动对自然界造成的影响越来越大，日益增长的资源需求使得土地利用情况产生巨大变化，污染愈发严重，生物多样性锐减，人类的生存空间变得越来越恶劣。

进入人工智能时代后，怎样更好地利用大数据和机器学习等前沿技术，为环保和绿色产业赋能，成为了政府、科学家、公众以及企业的关注焦点。

在能源利用方面，谷歌旗下的DeepMind无疑走在了最前面。

2016年开始，DeepMind将人工智能工具引入到谷歌数据中心，帮助这家科技巨头节省能源开支。

DeepMind利用神经网络的识别模式系统来预测电量的变化，并采用人工智能技术 *** 控计算机服务器和相关散热系统，成功帮助谷歌节省了40%的能源，将谷歌整体能效提升了15%。

2018年后，DeepMind更是将“触手”伸向了清洁能源领域。我们都知道，风力发电因为有较大的波动性和不可预测性，因而难以并入电网，无法有效利用。

DeepMind利用天气预报、气象观测等数据训练神经网络模型，可以提供36小时后的风力预测，从而让农场的风力发电变得能够预测。

一旦风力发电可以预测，电厂就能有充裕的时间启动需要较长时间才能上线的发电手段，与风力互补。如此一来，风电并网难的问题就可轻松解决。

DeepMind预测的风力发电量和实际发电量对比

在自然环境保护方面，微软的“人工智能地球计划（AI of Earth）”则为大家做出了表率。

这一计划于2017年7月启动，旨在借助云计算、物联网和AI技术，保护和维持地球及其自然资源，通过资助、培训和深入合作的方式，向水资源、农业、生物多样性和气候变化等领域的个人和组织机构提供支持。

例如，“SilviaTerra”项目通过使用Microsoft Azure、高分辨卫星图像和美国林务局的现场数据来训练机器学习模型，实现对森林的监测；“WildMe”项目通过使用计算机视觉和深度学习算法，可对濒临灭绝的动物进行识别；“FarmBeats”项目在户外环境下可以通过传感器、无人机以及其它设备改进数据采集，进而提高农业的可持续性。

在前三次工业革命中，科学技术进步给人们带来极大生活便利的同时，也带来了气候变化、生物多样性退化、大气与海洋污染等棘手的自然环境问题，人类的生存环境正逐渐变得恶劣。

从表面上看，似乎发达经济体的自然环境已经改善了，但这种改善是以转移污染、破坏发展中国家自然环境为代价的，世界整体的自然环境状况依然不容乐观。

一直以来，人们寄希望于未来的科学技术进步能够解决当下的自然环境问题，而人工智能技术的出现点燃了这一希望。

一旦人工智能技术可以加速基础科学理论的突破，实现生产效率的大幅提升，有效改善人类的生存空间，一切发展与自然环境的问题也就迎刃而解。

4 总结

站在2019年看人工智能，不免感到几丝寒意。人工智能算法没有明显突破，鲁棒性差、算法黑箱等问题依然突出，部分商业化落地也不及预期，一些专家学者开始担心人工智能将迎来新的“寒冬”。

但若站在未来回顾人工智能，当前所有的担忧将仅仅是一个个小插曲。

即便是目前，人工智能技术的潜力也远远未终结。

人工智能即将带来的变革，仍将会超乎大部分人的想象。

近年来，许多行业都已切实感受到人工智能带来的颠覆，包括金融、制造、教育、医疗和交通等等。

但人工智能的价值维度还有很多，加速基础科学研究、提升社会生产效率和改善人类生存空间也只是其中的几个方面，我们不妨先提升一下自己的想象力。

人工智能将为人类带来怎样的变革，让我们拭目以待吧！

张志宇毕业于麻省理工学院，并在之后加入了斯坦福大学的计算机科学博士课程。
在麻省理工学院，张志宇主修计算机科学专业，并在该校获得了计算机科学学士学位和硕士学位。期间，他曾参与过多个计算机科学领域的研究项目，拥有丰富的科研经验和扎实的技术功底。在该校期间，他还担任了多个社团和组织的领导职务。
随后，张志宇进入了斯坦福大学计算机科学博士课程学习，他的博士论文题目为“Graph Processing on GPUs”，主要研究方向是图处理算法及其在GPU上的优化实现。在斯坦福大学，他继续深入研究计算机科学领域，并发表了多篇论文，其中包括在顶级国际会议SIGMOD和VLDB上发表的论文。
张志宇通过在麻省理工学院和斯坦福大学的学习和研究，不仅积累了丰富的知识和经验，同时也建立了广泛的人脉，为他的未来发展奠定了坚实的基础。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/dianzi/13040937.html

如何利用hadhoop构建物联网平台

发表评论

评论列表（0条）