1、数据使用必须承担保护的责任与义务
我国数据流通与数据交易主要存在以下问题:数据源活性不够,数据中介机构还处于起步阶段;多源数据的汇集技术尤其是非结构化数据分析技术滞后;缺乏熟悉不同行业并掌握在特定领域使用数据技术的人才。
数据的价值在于融合与挖掘,数据流通、交易有利于促进数据的融合和挖掘,搞活数据从而产生效益。数据共享开放、流通交易和数据保护及数据安全对数据技术提出严峻挑战,对法律的制定及执行提出了很高要求。为此,数据使用必须承担保护的责任与义务。
2、数字经济是振兴实体经济的精兵利器
数字经济牵手传统制造,将推动传统工业快速向数字化、网络化、智能化升级,以工业云、数字工厂、机器人技术等为代表的“智能制造”将促进我国工业装备水平大幅提升、自主创新能力显著增强。数字经济也在引领农业现代化。
推进我国数字经济发展要注重加强网络设施建设,夯实数字经济基础支撑。例如,要持续深入实施网络提速降费,推动国家大数据中心建设。要深入推进“两化”融合,提升数字经济应用水平,推进大数据在研发设计、生产制造、管理决策、售后服务等全流程的深度应用。
培育个性化定制、众包设计、协同制造等数据驱动的制造业新模式。要促进多方协同创新,繁荣数字经济产业生态,支持产业联盟、行业协会等组织搭建公共服务平台,构建多方协作、互利共赢的产业生态。
3、推动数字化转型应用
与工业经济的流水线生产不同,数字经济依托云网端,开展网络的协同和定制化的服务,具有强链接、强平台、强数据、强智能等发展特征。以强数据为例,通过采集汇聚、挖掘分析、精准画像来提高认知、驱动决策。
为此,需要建立普惠共创的发展观、科学共享的数据观和包容共治的生态观,抓住工业经济向数字经济转型的机遇,推动产业革命;聚焦大连接、大平台、大数据、大智能,推动国家整体的数字化转型以及产业的数字化应用;促进数字经济时代经济和社会均衡发展,不断加强数字治理。
4、注重四个“结合” 向“数据强国”迈进
领导干部是落实国家大数据战略的行动主体。在国家大数据战略部署背景下,要以大数据提升国家治理能力为目标,以领导干部的现实需求为出发点,帮助领导干部把准形势、用对方法、找好标杆、取得实效,把大数据战略落到实处。
5、注重把政府数据开放和市场基于数据的创新结合起来。
大数据战略就会成为无源之水,数据开放的价值也就无从显现。要注重把大数据与国家治理创新结合起来,借助大数据实现政府负面清单、权力清单和责任清单的透明化管理,完善大数据监督和技术反腐体系。
要注重把大数据与现代产业体系结合起来,包括工业大数据、新兴产业大数据、农业农村大数据等。要注重把大数据与大众创业、万众创新结合起来,培育数据密集型产业。
参考资料来源:光明网-在发展与治理中彰显大数据的时代价值
随着互联网的快速发展,物联网也在阔步前行,与此同时,物联网对人们的影响也越来越大。如今,诸多IT公司都大量投资物联网,以此将人与设备、设备与设备以及系统与系统连接起来。据市场研究机构IDC的研究人员估算,到2020年时,物与物联网的规模将是比人与人联网的规模高26倍。
如今,从人们与周围事物互动的角度来看,物联网已经在影响人们的日常工作。预计将来物联网还将发挥全新的作用,并将改变人们的交通、交流和协作的方式。为什么呢?以下10大原因将对此问题作出更好的解释。
1、让人们路途中的交通更加快捷
人们约有15%的交流时间花费在路上,约有17%的燃料消耗在等待红灯的过程中。道路上的传感器、交通视频摄像头以及道路的中央分隔带都将影响着汽车与驾驶员的“谈话”方式。通过监控行驶速度、交通信号灯、事故以及当前的路况等信息,编入程序的汽车,甚至是道路都将给驾驶员的移动设备发去最有效的行驶路线,从而减少交通时间,节省燃料,并让人们出行更安全。
2、预测产品的稳定性
在产品出货之后,买方与卖方之间的互动往往就会减少,如果双方没有新的交易或产品出现问题,那么买方与卖方之间的交流也几乎没有。预测技术能够监控产品的“稳定性”,从而在问题出现之前就能够及时地发现问题。在倡导消费者为先的时代,一家公司如果掌握了预测产品性能的监控技术,那将意味着这家公司将能够让消费者感到满意,并避免问题的出现。
3、创建更多的工作职位
数字朝代已经开创了IT工作职位的新时代。随着物联网的兴起,云和大数据相关的工作也越来越专业化。市场研究机构Gartner去年就发布报告称,首席数码官(CDO)的数量正在不断上升。Gartner还预测称,到2015年时,约有25%的公司将设立这样的工作职位,以此来管理公司数字,在这样的形势之下,数据专家也将成为公司的重要资产。在获得了大数据和分析的价值之后,人们也将开始看到更多的首席数据科学家、分析师、甚至是客户满意官员等相关的工作职位,甚至还会出现我们目前还没有想到的职位。
4、提供工作能力
社交媒体的崛起已经为人们的交流和团队协作开创了新的时代。像Box、Skype、Jive和Facebook等有价值的社交工具已经吸引了下一代工人的关注。视频交流和图像交流等也将节省人们的交流时间,同时也让这些社交工具与现代化的协调工作系统不分上下。
5、便于将非结构化数据转化成结构化数据
大数据不仅仅是“大”,而是“巨大”。大数据如果被很好地利用的话,那么将会给商业创造更多的价值,特别是在非结构化数据转化成结构化数据之后。分析数据并将这些分析后的数据整合到有用的信息之后,这些数据将会提供消费者、产品行为、市场状况、员工生产力以及更多的相关有用信息。
6、更利于环境保护
如今,感应器已经在一些办公大楼和家庭内运行,但展望未来,这种感应器将成为现代建筑基础设施的必需品。随着用户在房间或卧室内的移动,安装后的动作感应器也将能够按照用户需求打开或关闭灯光设施、加热器、空调、咖啡机和电视机等设备。这些感应器如今已经整合到盲人设备之中,并利用温度和光线等决定打开和关闭相关设备的时长。最终,这种感应器很好地帮助人们节能,节省资金并保护了环境。
7、更好地定位
物联网让位置追踪服务更加简捷。目前,手机、汽车甚至是医院内的联网设备都能够被定位,从而节省有价值的资源。诸多公司将能够很快地追踪他们业务的每一个细节,包括从库存到订单履约情况等,并根据这些位置信息来部署现场服务和员工。工具、工厂和汽车都将能够连接基于位置技术的网络之中,从而让整个链条更加有效。
8、更加智能化的沟通与服务
即使是水冷却机也能够连接到物联网,从而更好地让人们利用更多的时间。例如,水冷却机(或咖啡机、快餐店等)都能够更加智能化的记忆用户的个人偏好,并根据声音和动作激活技术提供相应的服务,甚至是按照用户的需求传递饮料,而不需要用户等候。
9、改变医生工作方式
物联网正在改变医生的工作方式、病人的体验以及整个医患关系。如今,病人的病情必须经过医生当面确诊后才能作出评估。将来,物联网将能够让医生直接读到病人身体相关的数据信息,从而让医生远程实时的掌握病人的信息。
10、根据天气状况安排工作
如今,天气预报主要依赖一些卫星和地面天气监测的结果而进行。将来,大量的感应器将会整合到不同的设备之中,以及空中和地面的数据接受站。使用大数据分析来更好地预测地球状况,将有利于人们更加熟练准确的掌握天气状况和气候变化情况,这样将能够进行更加准确的天气预报,从而让人们更好的规划一周的工作。从全球范围来看,物联网将意味着人们能够更加准确地预测气候变化趋势和自然灾害情况。
数字化转型是企业追逐的新目标也是必经之路,甚至可以说“无数字化就会面临淘汰”。传统的信息化方式已经很难帮助企业应对极端条件下的企业发展,如这两年的疫情,给国家和企业造成的损失无可计量,对传统企业更是致命打击,也正是诸如此类的突发事件,类似加速一样,带来了数字化的指数发展,加快了行业的数字化普及。
物联网是“新基建”的核心要素,也是数字化转型的关键节点。传统制造企业已不再是埋头造东西了,而是通过收集产品的各项使用指标、用户习惯等数据,优化产品,提升用户满意度。每个产品都可以通过不同的网络介质与云端通信,实现数据的高效、稳定传输。
所以说要实现数字化转型,物联网是必经之路。
物联网 归根结底还是一种以网络为介质将万物进行互联网的网络。只不过,这网络不再局限于以前的局域网,而是通过各种新的通信技术,如5G 。物联网技术的重要基础和核心仍旧是互联网,通过各种有线和无线网络与互联网融合,将物体的信息实时准确地传递到云端 。
物联网初步分为三个层次,有物理层(也被称为感知层),网络层和应用层。
也称为感知层,主要是由各种的传感器元器件构成,如温、湿度传感器、高度传感器、方向传感器、R FID 标签和读写器等等。它本身是对外界各种信号的感知,类似人的五感,采集各种信息的来源,主要功能就是识别物体,采集信息。
负责传递和处理感知层获取的信息,由各种网络、互联网、有线和无线通信网、网络管理系统和云计算平台等组成。
负责物联网和用户(包括人、组织和其他系统)的人机接口,与各行各业的业务需要进行对接,实现物联网的智能应用。
物联网技术已经不再局限于某个企业或者行业,随着快速的发展,物联网已涉及到智慧安防、智慧能源、智慧家居、智慧城市等的建设。所以必须快速的形成自主的知识产权,掌握物联网的核心技术。
从企业层面而言,通过应用物联网可以最直观、最优先的获得终端用户使用产品的第一手数据, 有助于 企业高层在企业战略、营销、研发、运营等多板块的决策。
随着技术的不断更新发展 ,企业 最终 将会成为物联网解决方案的执行者, 深知物联网可以为企业带来的无限红利,如为企业在行业内的创新创造更多的机会,提高用户满意度、利用与用户的互动,可以提升用户粘性,提高资源利用率的同时节约总体成本。
从个人层面而言, 科技 改变生活,各种新技术的诞生都是为了满足人类的某种需求,物联网也不例外。通过物联网可以改变人们的学习习惯。如教育机构可以通过物联网获得学生的学习习惯数据,对学生薄弱的学习环节进行定向辅导。可以提前告知车主,某个商场最近的车位在哪、哪条路堵车等。可以告知妈妈们冰箱里是否还有菜还有什么菜等等的场景。
由于这些多方面的好处,使物联网 被 广泛 的 应用。不但有效地满足了企业的成本削减效率提高 的要求 , 还帮助企业 获得新的发展机会, 使人们的生活更加的便利,人更“懒”了。
物联网是各种感知技术、通信技术、云计算、大数据、人工智能等技术的集合体。在各行各业都得到了广泛应用。物联网上部署了海量的多种类型传感器,每个传感器都是一个信息源,不同类别的传感器所捕获的信息内容和信息也不尽相同。企业通过大数据的不同算法和模型分析信息,提取价值数据,可以有效的帮助企业高管进行关键决策。
物联网的核心是物与物,以及人与物之间的信息交互,物联网的发展将为国家、行业及企业带来前所未有的挑战。物联网的技术特征有以下几点:
RFID 本身是一种简单的无线系统,由询问器和应答器组成,具有唯一的编码,附在实体上。这样我们可以随时掌握物体的位置及周遭环境,对目标物体进行跟踪。
是一种以机器对机器进行智能交互为核心的、网络化的应用与服务,使对象实现智能化控制。基于云计算、大数据、人工智能等平台和互联网络,可以依据获取到的数据进行决策,改变对象的行为,从而进行控制和反馈。
主要是由微型的、不同功能的传感器、微执行器、信号处理器和控制电路等组成。负责信息收集、简单处理和执行。利用传感网可以可以提高系统的自动化能力、智能化能力。
物联网的属性特征可概括为感知、传送和处理。
位于物联网的物中,集成各种不同功能的传感装置,利用RFID、二维码、传感器等感知、获取,随时随地对物体进行信息采集。
位于物联网的联中,通过各种通信网络与互联网技术的融合,将目标物体(对象)接入信息网络,随时随地进行可靠的信息交互和共享。
利用云计算、大数据等新兴技术,对海量的跨区域、跨行业、跨组织的数据和信息进行分析处理,提升对物理世界各种活动和变化的洞察力,实现自动化且智能化的决策。
通过上文的介绍,想必大家已经对物联网有了一个轮廓的理解。物联网作为新一代的信息技术的高度集成的产物,被国家列为五大新兴战略性产业之一,对于以后发展有很大的影响,同时物联网已经在各行各业得到了不同程度的实际应用,为促进企业的数字化转型,发挥了重要的作用。
随着工业40的发展,越来越多的智能化工厂、数字化工厂在国内落地开花,遍布全国。借助物联网的热度和技术,实现从研发、制造、销售、物流到后市场等关键环节的全流程标准化、智能化。比如:
随着智能化 社会 的到来,智能建筑、智能家电、智能家居正在逐步走进我们的生活。智能家居是以家为平台,兼备建筑、自动化,智能化于一体的高效、舒适、安全、便利的家居环境,是物联网生活化的应用场景之一。物联网不仅仅提供了传感器的连接,其本身也具有智能处理的能力,能够对物体实施智能控制。通过网络等信息通信技术手段实现对家居电器等的智能控制,使其能够按照人们的设定工作运行,而不论距离的远近。智能化与远程控制是智能家居的两大特点,这也是物联网的属性。
随着物联网的发展,智能家居可提供的场景不胜枚举,如通过手机可以远程控制家中的摄像头,查看家里情况,甚至可以通过摄像头和家人聊天;通过红外开关对家电进行远程控制,如提前打开电饭煲,实现下班到家马上有饭吃;通过智能门锁远程对门锁进行控制,掌控何人何时回家。利用物联网实现家居智能化,使生活更加舒适、便利和安全。
经历了计算机、互联网与移动通信网两次浪潮,物联网被称为信息产业第三次浪潮,代表了下一代信息发展技术。物联网是现代信息技术发展到一定阶段后出现的一种 综合 性应用与技术,将各种感知技术、现代网络技术和人工智能与自动化技术聚合与集成,使人与物智慧对话, 实现智慧的地球 。
物联网正在积极塑造工业生产和消费世界,从零售到医疗保健,从金融到物流,智能技术已遍及每个业务和消费者领域。随着国家的支持力度不断加码,物联网将得到前所未有的发展。毋庸置疑,物联网已经成为智慧的代名词,数字化转型的基础。工业物联网是指在工业中应用物联网技术,实现工业特有的价值增值的技术模式。
所有物联网都是为了实现万物互联,特别是物与物的互联,但是工业物联网又有其专有属性,原因是与工业物联网相对的消费物联网本身的联网密度、联网的实时性、联网物的异质化要求都不高,而工业物联网的要求主要表现在联网密度、联网实时性及联网异质化三个方面。
思考所有问题都需要从宏观到微观的细化过程,工业物联网也不能例外,我认为对工业物联网进行深度思考,需要从以下五个维度进行分析,否则将会要么带来一叶障目,要么带来好高骛远。
首先需要我们思考的问题是,工业物联网的价值、意义和目的是什么;第二个是工业物联网需要连什么的问题,这是一个范围的概念;第三个需要我们思考的是连入物联网的物的层级问题,也就是深度的问题;第四个需要我们思考的是实现物联的价值成本分析;第五个需要我们思考的是如何建设工业物联网。
互联网实现了计算机与计算机的连接,或者说实现了人与人的连接,这个连接带来了人的交互的便利,在这个基础上涌现出很多全新的、颠覆性的商业模式,例如,电子商务、即时通讯,社交媒体等等;而物联网将实现人与物、物与物的连接,同样我们也期望带来全新的、颠覆性的商业模式,甚至更进一步,期望带来人类生活、生产方式的全新的颠覆性的模式。
作为物联网主战场的工业物联网,人们对其的期许是在工业设计、制造、流通环节带来革命性的变革,为传统工业注入新的活力,提供新的势能,驱动工业在更高维度上发展、创新、乃至变革。随着计算、存储能力的提升,特别是大数据、人工智能的发展,任何行业对数据获取手段都提出了前所未有的要求。对数据获取手段的要求主要表现在四个特征,第一是高效性;第二是准确性;第三是实时性;第四是经济型;在当前技术能力下,能够同时满足这四个特征的就是工业物联网,首先,芯片技术已经发展到一个具有较强计算能力的MCU在美元以下,RFID芯片价格甚至已经到美分这个量级,使得工业物联网有了物质基础,同时满足了经济性要求;近三十年的通讯技术的发展,从模拟到数字,从简单调制到复杂调制技术的商用化,使无线通讯可以很廉价地覆盖几百米甚至数公里的范围,满足了数据获取的密集部署要求,同时由于工业物联网的永久在线的特征,使工业物联网满足数据获取的高效性、实时性要求;微电子技术在近年也发生了突飞猛进的发展,不论在价格上还是在进度上都有了长足的突破,满足了数据获取的准确性。
总而言之,工业物联网的出现是在以下几个条件成熟时涌现出来的不可逆转的趋势:
1、快速变化的市场需要数据支撑,产生了市场对数据获取的急切要求;
2、MCU的发展使得计算能力快速提升;
3、以调制技术为核心的通讯技术发展为联网建立的管道基础;
4、传感技术,特别是以MEMS为标志的微电子技术的发展给予感知世界提供的保证;
工业物联网不是规划出来的,是各种技术与需求发展进化的产物,是生活、生产、经济发展到一定高度后自然而然出现的,是在需求的驱动下,众多行业创新带了的自然产物。
通过工业物联网,可以把传统经济中不可数字化之物数字化,可以把传统不可数字化之行为数字化,可以把传统不可能变为可能,甚至变为容易获得、解决的方案。
这个问题是第一个问题的延续,如果不考虑经济性,那么我们可以说工业物联网连接一切可连接之物,但是,当我们在做一个务实的、有价值的方案时就不能不考虑可行性及经济性,那么工业物联网连什么呢?我们认为这是一个从哪里来到哪里去的问题,我们通过上面对价值、意义和目的分析可知,我们应该从目的反推,一切从目的出发,时刻盯紧企业需要弥补的最关键环节,例如,如果对量化OEE有需求,那么我们就要连接设备状态;如果要减少在制品,那么我们就要对在制品进行追踪;如果能源消耗对企业是重中之重,那么我们就要把能效物联化,等等。世界上不存在同样的两片树叶,同样地,世界上也不存在同样的两个企业,我们只能对企业本身进行深入分析,紧紧聚焦于企业价值,在保证经济性的基础上,确定工业物联网的实施范围方案。联网范围一个核心点是连入物的属性,也就是说我们通过分析连入物的属性与企业建设工业物联网目标的耦合度,决定需要实施工业物联网的广度。
通过分析工业物联网连什么后,我们得到了连入物的内容,接下来需要我们决定是对每个/每类连入物我们该数字化哪些属性,这里遇到工业物联网特有的一个障碍,需要连入工业物联网的物的可连通性问题, 特别是在设备互联时,可连通性表现的特别突出,例如,有的设备具有开放的通讯协议和可用的通讯接口,有的设备不开放协议等等,那么可连通性就是对方案供应商的很大的考验,我们的经验是有四种方案可供选择:
1、使用设备开放的协议;
2、使用设备自带的传感器;
3、添加新的传感器;
4、改变观察侧面及维度,使用全新的采集模式;
其中第四条,改变观察的侧面和维度,使用全新的连接方式是使用第一性原理,避开设备不开放协议或接口的阻碍,避开被设备供应商牵着鼻子走的方向,从本质上获取数据。例如:通过能效检测获得设备的使用状态,通过震动传感分析设备部件的故障、甚至是转速等,只要通过第一性原理从你需要的信息入手,而不是被动地从设备可以提供的数据入手来提供物联解决方案的方式。直接把我们需要的信息做为目标,观察除了直接连接设备外,我们还能够如何获得需要的信息,因为只有我们获得的数据能够与设备提供的数据在信息上能够“同构”即可。例如,我们可以在我们的物联设备上安装一个震动传感器,从传感器获得的数据中,我们即得到了设备是否开机,又得到了是否启动工作,同时还得到设备的转速。如果不用第一性原理,而是硬要跟设备互联,那至少要采集三个数据,并且未必设备能够给你。这就是典型的边缘计算的案例,边缘计算的计算规则一定要具有定制能力,可以说边缘计算一定是一个知识容器,可以方便地把客户、厂家,甚至是第三方的知识融入的容器,我们开发的支持脚本的设备已经具有了初步的边缘计算的功能,我们需要在这个方面继续加大支持力度。
所以,通过分析企业价值和物的可连通性,我们就可以明确定义需要连入物层级,也就明确了连入物的连接深度;
在连入物联网的物的层级中一个重要的概念是管理粒度,对于制造业来说,连入物的管理粒度大概分为如下几个层级:
1、传感级;
2、设备级;
3、产线级;
4、车间级;
5、企业级;
也就是说我们要在经济性可行的前提下定义数据获取的粒度。理论上讲,细粒度一定比粗粒度更好,更有价值,但是当加入成本分析后,可能并不一定粒度越细越好,需要按照各种制约因素找到一个平衡点。
价值成本永远在企业行为中持有权值最高的赞同或者否决的一票,通过前三项分析,我们仅剩下最后一个问题没有解决,这也是关乎价值成本的关键:管理粒度问题,我们到底需要在多细的粒度下进行管理?这带来了一个哲学问题:世界是不是需要黑盒子。什么意思呢?当我们确定一个管理粒度后,比管理粒度更细的信息将被隐藏在黑盒子中,这个黑盒子将成为我们分析深度或者认知深度的制约因素和约束条件。我们可以通过价值成本分析来找到这个平衡点,从而明确黑盒子的大小,并最终确定连入工业物联网的物的特性。
我们的期许是工业物联网建设的价值观,其他一起都是方法论。首先,我们在规划物联网时要本着既要有高瞻远瞩,又要有务实可行的精神。在思考黑盒子的大小时我们要高瞻远瞩,设计方案尽可能地以黑盒子尽量小为目标,而实施方案则按照价值成本分析选择合适的黑盒子的大小,也就是选择合适的管理粒度,从而保证投入收益的平衡,甚至我们可以把黑盒子尽量定义的大些,用以验证工业物联网的可行性,最大可能地降低工业物联网实施的风险。
总之,我们应该从以几个方案来确定工业物联网的建设原则:
1、期望获得什么结果?
2、期望用什么方式获得想要的结果?
3、需要信息基础提供什么?
4、工业物联网是否能够获得这些信息?
5、工业物联网如何获得这些信息?
6、获得这些信息的性价比如何?
7、回归分析,评估预期结果是否符合经济利益?
8、落地实施。北京大学商务智能研究中心主任王汉生教授在一篇文章中,提出了一个关于数据商业价值的理论框架,这个框架非常简单,就三个关键词:收入、支出、风险。
第一是收入。你要看自己的数据产品能否帮客户带来额外的收入。这里的关键词是“额外”。比如客户是卖豆浆的,以前没有你的数据分析,他每天卖100碗。有了你的数据分析之后,每天能卖150碗,多卖出去的50碗豆浆,就是你的数据带来的价值。
王汉生教授说,最理想的额外收入应该是新兴市场。比如我们放假开车出去玩的时候,会遇到堵车。这时候能不能出一个堵车险?每堵1分钟,保险公司赔你1块钱,补偿一下你郁闷的心情。传统保险公司之所以不做,是因为没办法实时监控一辆车的状态,不知道有没有堵车,更不知道堵了多久。但现在有了车联网数据,这种监控就有可能实现。这就是车联网数据带来的价值。
第二个关键词是“支出”。如果你的数据分析有可能给客户节约不必要的支出那就更好了。因为收入的增加往往有很强的不确定性,但相对来说,成本的控制是可以做到非常准确的。就像堵车险这个新兴市场,究竟能带来多少额外收入非常不确定。但如果你说有个超市,现在有100个收银员,通过技术改造,数据分析,合理安排,发现20个人就够了,直接节省了80个人的成本,这是非常确定的。
所以,如果数据分析可以节省支出,这件事更靠谱,更加可以预期。就拿中国的制造业来说,不管是生产汽车还是电脑,体量都很巨大。这些设备上的每个功能都是必须的吗?电脑上真的需要那么多USB接口吗?过去我们很难下判断,因为不知道用户是怎么使用这个设备的。但是今天有了物联网之后,这样的数据分析就有可能变成现实,这就是物联网数据的商业价值所在。
第三个关键词是“风险”。如果你的数据不能直接增加收入,也不能直接节省成本,但是可以控制风险,也有商业价值。看一个具体的例子。很多商业银行都有网上申请系统,用户通过互联网直接就能申请xyk,或者别的产品。之所以在网上做,是因为流量大、成本低、效率高。但缺点是风险比较大,有些线下才能提供的材料无法获得。这时银行为了把控风险,就只能提高在线申请的门槛,降低通过率。这样做虽然增加了安全性,把坏人拦在了外面,但同时也可能挡住了很多好人,也就是银行需要的客户。这时候,如果你能提供独特的数据和分析,帮银行更准确地区分哪些线上申请的人是好人,哪些是坏人,银行就能放心地给更多人发卡,从而增加收入。数据在这里的价值,就是把对风险的把控转化为收入的提高。
1 大数据兴起预示“信息时代”进入新阶段
(1) 看待大数据要有历史性的眼光
信息时代是相对于农业和工业时代而言的一段相当长的时间。不同时代的生产要素和社会发展驱动力有明显差别。信息时代的标志性技术发明是数字计算机、集成电路、光纤通信和互联网(万维网)。尽管媒体上大量出现“大数据时代”的说法,但大数据、云计算等新技术目前还没有出现与上述划时代的技术发明可媲美的技术突破,难以构成一个超越信息时代的新时代。信息时代可以分成若干阶段,大数据等新技术的应用标志着信息社会将进入一个新阶段。
考察分析100年以上的历史长河可以发现,信息时代与工业时代的发展规律有许多相似之处。电气化时代与信息时代生产率的提高过程惊人地相似。都是经过20~30年扩散储备之后才有明显提高,分界线分别是1915年和1995年。笔者猜想,信息技术经过几十年的扩散储备后,21世纪的前30年可能是信息技术提高生产率的黄金时期。
(2) 从“信息时代新阶段”的高度认识“大数据”
中国已开始进入信息时代,但许多人的思想还停留在工业时代。经济和科技工作中出现的许多问题,其根源是对时代的认识不到位。18-19世纪中国落后挨打,根源是满清政府没有认识到时代变了,我们不能重犯历史性的错误。
中央提出中国进入经济“新常态”以后,媒体上有很多讨论,但多数是为经济增速降低做解释,很少有从时代改变的角度论述“新常态”的文章。笔者认为,经济新常态意味着中国进入了以信息化带动新型工业化、城镇化和农业现代化的新阶段,是经济和社会管理的跃迁,不是权宜之计,更不是倒退。
大数据、移动互联网、社交网络、云计算、物联网等新一代信息技术构成的IT架构“第三平台”是信息社会进入新阶段的标志,对整个经济的转型有引领和带动作用。媒体上经常出现的互联网、创客、“第二次机器革命”、“工业40”等都与大数据和云计算有关。大数据和云计算是新常态下提高生产率的新杠杆,所谓创新驱动发展就是主要依靠信息技术促进生产率的提高。
(3)大数据可能是中国信息产业从跟踪走向引领的突破口
中国的大数据企业已经有相当好的基础。全球十大互联网服务企业中国占有4席(阿里巴巴、腾讯、百度和京东),其他6个Top10 互联网服务企业全部是美国企业,欧洲和日本没有互联网企业进入Top10。这说明中国企业在基于大数据的互联网服务业务上已处于世界前列。在发展大数据技术上,我国有可能改变过去30年技术受制于人的局面,在大数据应用上中国有可能在全世界起到引领作用。
但是,企业的规模走在世界前列并不表示我国在大数据技术上领先。实际上,国际上目前流行的大数据主流技术没有一项是我国开创的。开源社区和众包是发展大数据技术和产业的重要途径,但我们对开源社区的贡献很小,在全球近万名社区核心志愿者中,我国可能不到200名。我们要吸取过去基础研究为企业提供核心技术不够的教训,加强大数据基础研究和前瞻技术研究,努力攻克大数据核心和关键技术。
2 理解大数据需要上升到文化和认识论的高度
(1) 数据文化是一种先进文化
数据文化的本质是尊重客观世界的实事求是精神,数据就是事实。重视数据就是强调用事实说话、按理性思维的科学精神。中国人的传统习惯是定性思维而不是定量思维。目前许多城市在开展政府数据开放共享工作,但是发现多数老百姓对政府要开放的数据并不感兴趣。要让大数据走上健康的发展轨道,首先要大力弘扬数据文化。本文讲的数据文化不只是大数据用于文艺、出版等文化产业,而是指全民的数据意识。全社会应认识到:信息化的核心是数据,只有政府和大众都关注数据时,才能真正理解信息化的实质;数据是一种新的生产要素,大数据的利用可以改变资本和土地等传统要素在经济中的权重。
有人将“上帝与数据共舞”归纳为美国文化的特点之一,说的是美国人既有对神的诚意,又有通过数据求真的理性。美国从镀金时代到进步主义时期完成了数据文化的思维转变,南北战争之后人口普查的方法被应用到很多领域,形成了数据预测分析的思维方式。近百年来美国和西方各国的现代化与数据文化的传播渗透有密切关系,我国要实现现代化也必须强调数据文化。
提高数据意识的关键是要理解大数据的战略意义。数据是与物质、能源一样重要的战略资源,数据的采集和分析涉及每一个行业,是带有全局性和战略性的技术。从硬技术到软技术的转变是当今全球性的技术发展趋势,而从数据中发现价值的技术正是最有活力的软技术,数据技术与数据产业的落后将使我们像错过工业革命机会一样延误一个时代。
(2)理解大数据需要有正确的认识论
历史上科学研究是从逻辑演绎开始的,欧几里得几何的所有定理可从几条公理推导出来。从伽利略和牛顿开始,科学研究更加重视自然观察和实验观察,在观察基础上通过归纳方法提炼出科学理论,“科学始于观察”成为科学研究和认识论的主流。经验论和唯理论这两大流派都对科学的发展做出过重大贡献,但也暴露出明显的问题,甚至走入极端。理性主义走向极端就成为康德所批判的独断主义,经验主义走入极端就变成怀疑论和不可知论。
20世纪30年代,德国哲学家波普尔提出了被后人称为“证伪主义”的认识论观点,他认为科学理论不能用归纳法证实,只能被试验发现的反例“证伪”,因而他否定科学始于观察,提出“科学始于问题”的著名观点[3]。证伪主义有其局限性,如果严格遵守证伪法则,万有引力定律、原子论等重要理论都可能被早期的所谓反例扼杀。但“科学始于问题”的观点对当前大数据技术的发展有指导意义。
大数据的兴起引发了新的科学研究模式:“科学始于数据”。从认识论的角度看,大数据分析方法与“科学始于观察”的经验论较为接近,但我们要牢记历史的教训,避免滑入否定理论作用的经验主义泥坑。在强调“相关性”的时候不要怀疑“因果性”的存在;在宣称大数据的客观性、中立性的时候,不要忘了不管数据的规模如何,大数据总会受制于自身的局限性和人的偏见。不要相信这样的预言:“采用大数据挖掘,你不需要对数据提出任何问题,数据就会自动产生知识”。面对像大海一样的巨量数据,从事数据挖掘的科技人员最大的困惑是,我们想捞的“针”是什么?这海里究竟有没有“针”?也就是说,我们需要知道要解决的问题是什么。从这个意义上讲,“科学始于数据”与“科学始于问题”应有机地结合起来。
对“原因”的追求是科学发展的永恒动力。但是,原因是追求不完的,人类在有限的时间内不可能找到“终极真理”。在科学的探索途中,人们往往用“这是客观规律”解释世界,并不立即追问为什么有这样的客观规律。也就是说,传统科学并非只追寻因果性,也可以用客观规律作为结论。大数据研究的结果多半是一些新的知识或新的模型,这些知识和模型也可以用来预测未来,可以认为是一类局部性的客观规律。科学史上通过小数据模型发现一般性规律的例子不少,比如开普勒归纳的天体运动规律等;而大数据模型多半是发现一些特殊性的规律。物理学中的定律一般具有必然性,但大数据模型不一定具有必然性,也不一定具有可演绎性。大数据研究的对象往往是人的心理和社会,在知识阶梯上位于较高层,其自然边界是模糊的,但有更多的实践特征。大数据研究者更重视知行合一,相信实践论。大数据认识论有许多与传统认识论不同的特点,我们不能因其特点不同就否定大数据方法的科学性。大数据研究挑战了传统认识论对因果性的偏爱,用数据规律补充了单一的因果规律,实现了唯理论和经验论的数据化统一,一种全新的大数据认识论正在形成。
3 正确认识大数据的价值和效益
(1)大数据的价值主要体现为它的驱动效应
人们总是期望从大数据中挖掘出意想不到的“大价值”。实际上大数据的价值主要体现在它的驱动效应,即带动有关的科研和产业发展,提高各行各业通过数据分析解决困难问题和增值的能力。大数据对经济的贡献并不完全反映在大数据公司的直接收入上,应考虑对其他行业效率和质量提高的贡献。大数据是典型的通用技术,理解通用技术要采用“蜜蜂模型”:蜜蜂的效益主要不是自己酿的蜂蜜,而是蜜蜂传粉对农业的贡献。
电子计算机的创始人之一冯·诺依曼曾指出:“在每一门科学中,当通过研究那些与终极目标相比颇为朴实的问题,发展出一些可以不断加以推广的方法时,这门学科就得到了巨大的进展。”我们不必天天期盼奇迹出现,多做一些“颇为朴实”的事情,实际的进步就在扎扎实实的努力之中。媒体喜欢宣传一些令人惊奇的大数据成功案例,对这些案例我们应保持清醒的头脑。据Intel中国研究院首席工程师吴甘沙在一次报告中透露,所谓“啤酒加尿布”的数据挖掘经典案例,其实是Teradata公司一位经理编出来的“故事”,历史上并没有发生过[4]。即使有这个案例,也不说明大数据分析本身有什么神奇,大数据中看起来毫不相关的两件事同时或相继出现的现象比比皆是,关键是人的分析推理找出为什么两件事物同时或相继出现,找对了理由才是新知识或新发现的规律,相关性本身并没有多大价值。
有一个家喻户晓的寓言可以从一个角度说明大数据的价值:一位老农民临终前告诉他的3个儿子,他在他家的地中埋藏了一罐金子,但没有讲埋在哪里。
他的儿子们把他家所有的地都深挖了一遍,没有挖到金子,但由于深挖了土地,从此庄稼收成特别好。数据收集、分析的能力提高了,即使没有发现什么普适的规律或令人完全想不到的新知识,大数据的价值也已逐步体现。
(2)大数据的力量来自“大成智慧”
每一种数据来源都有一定的局限性和片面性,只有融合、集成各方面的原始数据,才能反映事物的全貌。事物的本质和规律隐藏在各种原始数据的相互关联之中。不同的数据可能描述同一实体,但角度不同。对同一个问题,不同的数据能提供互补信息,可对问题有更深入的理解。因此在大数据分析中,汇集尽量多种来源的数据是关键。
数据科学是数学(统计、代数、拓扑等)、计算机科学、基础科学和各种应用科学融合的科学,类似钱学森先生提出的“大成智慧学”[5]。钱老指出:“必集大成,才能得智慧”。大数据能不能出智慧,关键在于对多种数据源的集成和融合。IEEE计算机学会最近发布了2014年的计算机技术发展趋势预测报告,重点强调“无缝智慧(seamless intelligence)”。发展大数据的目标就是要获得协同融合的“无缝智慧”。单靠一种数据源,即使数据规模很大,也可能出现“瞎子摸象”一样的片面性。数据的开放共享不是锦上添花的工作,而是决定大数据成败的必要前提。
大数据研究和应用要改变过去各部门和各学科相互分割、独立发展的传统思路,重点不是支持单项技术和单个方法的发展,而是强调不同部门、不同学科的协作。数据科学不是垂直的“烟囱”,而是像环境、能源科学一样的横向集成科学。
(3)大数据远景灿烂,但近期不能期望太高
交流电问世时主要用作照明,根本想象不到今天无处不在的应用。大数据技术也一样,将来一定会产生许多现在想不到的应用。我们不必担心大数据的未来,但近期要非常务实地工作。人们往往对近期的发展估计过高,而对长期的发展估计不足。Gartner公司预测,大数据技术要在5~10年后才会成为较普遍采用的主流技术,对发展大数据技术要有足够的耐心。
大数据与其他信息技术一样,在一段时间内遵循指数发展规律。指数发展的特点是,从一段历史时期衡量(至少30年),前期发展比较慢,经过相当长时间(可能需要20年以上)的积累,会出现一个拐点,过了拐点以后,就会出现爆炸式的增长。但任何技术都不会永远保持“指数性”增长,一般而言,高技术发展遵循Gartner公司描述的技术成熟度曲线(hype cycle),最后可能进入良性发展的稳定状态或者走向消亡。
需要采用大数据技术来解决的问题往往都是十分复杂的问题,比如社会计算、生命科学、脑科学等,这些问题绝不是几代人的努力就可以解决的。宇宙经过百亿年的演化,才出现生物和人类,其复杂和巧妙堪称绝伦,不要指望在我们这一代人手中就能彻底揭开其奥妙。展望数百万年甚至更长远的未来,大数据技术只是科学技术发展长河中的一朵浪花,对10~20年大数据研究可能取得的科学成就不能抱有不切实际的幻想。
4 从复杂性的角度看大数据研究和应用面临的挑战
大数据技术和人类探索复杂性的努力有密切关系。20世纪70年代,新三论(耗散结构论、协同论、突变论)的兴起对几百年来贯穿科学技术研究的还原论发起了挑战。1984年盖尔曼等3位诺贝尔奖得主成立以研究复杂性为主的圣菲研究所,提出超越还原论的口号,在科技界掀起了一场复杂性科学运动。虽然雷声很大,但30年来并未取得预期的效果,其原因之一可能是当时还没有出现解决复杂性的技术。
集成电路、计算机与通信技术的发展大大增强了人类研究和处理复杂问题的能力。大数据技术将复杂性科学的新思想发扬光大,可能使复杂性科学得以落地。复杂性科学是大数据技术的科学基础,大数据方法可以看作复杂性科学的技术实现。大数据方法为还原论与整体论的辩证统一提供了技术实现途径。大数据研究要从复杂性研究中吸取营养,从事数据科学研究的学者不但要了解20世纪的“新三论”,可能还要学习与超循环、混沌、分形和元胞自动机等理论有关的知识,扩大自己的视野,加深对大数据机理的理解。
大数据技术还不成熟,面对海量、异构、动态变化的数据,传统的数据处理和分析技术难以应对,现有的数据处理系统实现大数据应用的效率较低,成本和能耗较大,而且难以扩展。这些挑战大多来自数据本身的复杂性、计算的复杂性和信息系统的复杂性。
(1)数据复杂性引起的挑战
图文检索、主题发现、语义分析、情感分析等数据分析工作十分困难,其原因是大数据涉及复杂的类型、复杂的结构和复杂的模式,数据本身具有很高的复杂性。目前,人们对大数据背后的物理意义缺乏理解,对数据之间的关联规律认识不足,对大数据的复杂性和计算复杂性的内在联系也缺乏深刻理解,领域知识的缺乏制约了人们对大数据模型的发现和高效计算方法的设计。形式化或定量化地描述大数据复杂性的本质特征及度量指标,需要深入研究数据复杂性的内在机理。人脑的复杂性主要体现在千万亿级的树突和轴突的链接,大数据的复杂性主要也体现在数据之间的相互关联。理解数据之间关联的奥秘可能是揭示微观到宏观“涌现”规律的突破口。大数据复杂性规律的研究有助于理解大数据复杂模式的本质特征和生成机理,从而简化大数据的表征,获取更好的知识抽象。为此,需要建立多模态关联关系下的数据分布理论和模型,理清数据复杂度和计算复杂度之间的内在联系,奠定大数据计算的理论基础。
(2) 计算复杂性引起的挑战
大数据计算不能像处理小样本数据集那样做全局数据的统计分析和迭代计算,在分析大数据时,需要重新审视和研究它的可计算性、计算复杂性和求解算法。大数据样本量巨大,内在关联密切而复杂,价值密度分布极不均衡,这些特征对建立大数据计算范式提出了挑战。对于PB级的数据,即使只有线性复杂性的计算也难以实现,而且,由于数据分布的稀疏性,可能做了许多无效计算。
传统的计算复杂度是指某个问题求解时需要的时间空间与问题规模的函数关系,所谓具有多项式复杂性的算法是指当问题的规模增大时,计算时间和空间的增长速度在可容忍的范围内。传统科学计算关注的重点是,针对给定规模的问题,如何“算得快”。而在大数据应用中,尤其是流式计算中,往往对数据处理和分析的时间、空间有明确限制,比如网络服务如果回应时间超过几秒甚至几毫秒,就会丢失许多用户。大数据应用本质上是在给定的时间、空间限制下,如何“算得多”。从“算得快”到“算得多”,考虑计算复杂性的思维逻辑有很大的转变。所谓“算得多”并不是计算的数据量越大越好,需要探索从足够多的数据,到刚刚好的数据,再到有价值的数据的按需约简方法。
基于大数据求解困难问题的一条思路是放弃通用解,针对特殊的限制条件求具体问题的解。人类的认知问题一般都是NP难问题,但只要数据充分多,在限制条件下可以找到十分满意的解,近几年自动驾驶汽车取得重大进展就是很好的案例。为了降低计算量,需要研究基于自举和采样的局部计算和近似方法,提出不依赖于全量数据的新型算法理论,研究适应大数据的非确定性算法等理论。
(3)系统复杂性引起的挑战
大数据对计算机系统的运行效率和能耗提出了苛刻要求,大数据处理系统的效能评价与优化问题具有挑战性,不但要求理清大数据的计算复杂性与系统效率、能耗间的关系,还要综合度量系统的吞吐率、并行处理能力、作业计算精度、作业单位能耗等多种效能因素。针对大数据的价值稀疏性和访问弱局部性的特点,需要研究大数据的分布式存储和处理架构。
大数据应用涉及几乎所有的领域,大数据的优势是能在长尾应用中发现稀疏而珍贵的价值,但一种优化的计算机系统结构很难适应各种不同的需求,碎片化的应用大大增加了信息系统的复杂性,像昆虫种类一样多(500多万种)的大数据和物联网应用如何形成手机一样的巨大市场,这就是所谓“昆虫纲悖论”[6]。为了化解计算机系统的复杂性,需要研究异构计算系统和可塑计算技术。
大数据应用中,计算机系统的负载发生了本质性变化,计算机系统结构需要革命性的重构。信息系统需要从数据围着处理器转改变为处理能力围着数据转,关注的重点不是数据加工,而是数据的搬运;系统结构设计的出发点要从重视单任务的完成时间转变到提高系统吞吐率和并行处理能力,并发执行的规模要提高到10亿级以上。构建以数据为中心的计算系统的基本思路是从根本上消除不必要的数据流动,必要的数据搬运也应由“大象搬木头”转变为“蚂蚁搬大米”。
5 发展大数据应避免的误区
(1) 不要一味追求“数据规模大”
大数据主要难点不是数据量大,而是数据类型多样、要求及时回应和原始数据真假难辨。现有数据库软件解决不了非结构化数据,要重视数据融合、数据格式的标准化和数据的互 *** 作。采集的数据往往质量不高是大数据的特点之一,但尽可能提高原始数据的质量仍然值得重视。脑科学研究的最大问题就是采集的数据可信度差,基于可信度很差的数据难以分析出有价值的结果。
一味追求数据规模大不仅会造成浪费,而且效果未必很好。多个来源的小数据的集成融合可能挖掘出单一来源大数据得不到的大价值。应多在数据的融合技术上下功夫,重视数据的开放与共享。所谓数据规模大与应用领域有密切关系,有些领域几个PB的数据未必算大,有些领域可能几十TB已经是很大的规模。
发展大数据不能无止境地追求“更大、更多、更快”,要走低成本、低能耗、惠及大众、公正法治的良性发展道路,要像现在治理环境污染一样,及早关注大数据可能带来的“污染”和侵犯隐私等各种弊端。
(2) 不要“技术驱动”,要“应用为先”
新的信息技术层出不穷,信息领域不断冒出新概念、新名词,估计继“大数据”以后,“认知计算”、“可穿戴设备”、“机器人”等新技术又会进入炒作高峰。我们习惯于跟随国外的热潮,往往不自觉地跟着技术潮流走,最容易走上“技术驱动”的道路。实际上发展信息技术的目的是为人服务,检验一切技术的唯一标准是应用。我国发展大数据产业一定要坚持“应用为先”的发展战略,坚持应用牵引的技术路线。技术有限,应用无限。各地发展云计算和大数据,一定要通过政策和各种措施调动应用部门和创新企业的积极性,通过跨界的组合创新开拓新的应用,从应用中找出路。
(3) 不能抛弃“小数据”方法
流行的“大数据”定义是:无法通过目前主流软件工具在合理时间内采集、存储、处理的数据集。这是用不能胜任的技术定义问题,可能导致认识的误区。按照这种定义,人们可能只会重视目前解决不了的问题,如同走路的人想踩着自己身前的影子。其实,目前各行各业碰到的数据处理多数还是“小数据”问题。我们应重视实际碰到的问题,不管是大数据还是小数据。
统计学家们花了200多年,总结出认知数据过程中的种种陷阱,这些陷阱不会随着数据量的增大而自动填平。大数据中有大量的小数据问题,大数据采集同样会犯小数据采集一样的统计偏差。Google公司的流感预测这两年失灵,就是由于搜索推荐等人为的干预造成统计误差。
大数据界流行一种看法:大数据不需要分析因果关系、不需要采样、不需要精确数据。这种观念不能绝对化,实际工作中要逻辑演绎和归纳相结合、白盒与黑盒研究相结合、大数据方法与小数据方法相结合。
(4) 要高度关注构建大数据平台的成本
目前全国各地都在建设大数据中心,吕梁山下都建立了容量达2 PB以上的数据处理中心,许多城市公安部门要求存储3个月以上的高清监控录像。这些系统的成本都非常高。数据挖掘的价值是用成本换来的,不能不计成本,盲目建设大数据系统。什么数据需要保存,要保存多少时间,应当根据可能的价值和所需的成本来决定。大数据系统技术还在研究之中,美国的E级超级计算机系统要求能耗降低1 000倍,计划到2024年才能研制出来,用现在的技术构建的巨型系统能耗极高。
我们不要攀比大数据系统的规模,而是要比实际应用效果,比完成同样的事消耗更少的资源和能量。先抓老百姓最需要的大数据应用,因地制宜发展大数据。发展大数据与实现信息化的策略一样:目标要远大、起步要精准、发展要快速。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)