预测模拟技术在空间数据库优化开发中的应用——专家系统类比法滑坡灾害制图案例研究

预测模拟技术在空间数据库优化开发中的应用——专家系统类比法滑坡灾害制图案例研究,第1张

本文译自Environmental Geology,2002(41)∶765~775。

Alberto Pistocchi1Lucia Luzi2Paola Napolitano3著

朱汝烈4译校

(1Studio di Ingegneria per I'Ambiente e il Territorio,Viale GCarducci,15,47023 Cesena,Italy;2IRRS-CNR,MiLan,Italy;3ACTA Studio Associato,Naples,Italy;4中国地质调查局水文地质工程地质技术方法研究所,河北保定,071051)

摘要此案例研究,源于将不同概率的预测模型[贝叶斯(Bayesian)概率、模糊逻辑、“与”、“或”、“总和”、“产出”、“灰度(非线性)”运算以及必然性因素等],用于编制意大利亚平宁山脉北部的丘陵和山岳地区滑坡灾害地图。利用7个数据层来检验非常脆弱的区域:岩性、与地质构造线的距离、年降雨量数值、土地覆盖类型、地形坡度和坡向,以及与水文网络段的距离。与用预测率指数预测的不同结果进行了对比和缜密的讨论,以评价这种易于运用、适宜有效的数据库在土地规划中使用价值的可能性。

关键词支持性函数 整体化模拟 滑坡灾害 空间数据库

1 导言及一般论点

近几年来,全欧洲各地方及规划部门在建立空间数据库方面有了长足进展。然而,很多数据库似乎对决策支持仍然不起作用,而且其使用的有效数据经常是纯粹土化的。特别是,最终数据使用者和决策者对于有关地理信息系统(Geographic Information Systems——GIS)的模拟能力,近乎于毫不知晓的状况。极少有地方政府机构在日常的决策中采用预测模型作为其有效支撑。

地理信息系统为详细的空间特征模拟带来巨大的能力,并且许多地方政府现在已拥有GIS技术,为其使用提供了方便条件。人们在对自然界现象进行日常习惯性观察时,这一重要信息有变成一种更有力的方法手段的潜在可能吗?

出于参与规划和目标共享的需要,地学家已经注意到确定的共享资源在用于规划和决策支持中做出的评估具有何等重要性的有关阐述。一些人强调地球科学地图在制定政策和土地使用规划过程中的作用。据他们的观点,灾害地图(hazard maps)的主要作用是,为决策者提供有关土地开发规章条例定义问题的正确观点。

基于自然现象之间因果关系的预测模型,已被水文工作者、地球科学家、环境分析家和工程师广泛地应用于自然风险评估、自然资源管理、污染防治与土壤改良及环境影响评估等领域。然而,就诸如滑坡这一自然灾害场合而言,要建立一个能在区域规模内可靠适用的模式似乎相当困难。一些人探究产生这一困难的原因,认为主要是受模型和数据的限制。与其他风险管理的角度不同,很少有管理者探索过有关定量模型的应用问题。

滑坡灾害制图的传统方法,依赖地质学家和地貌学家的经验观察、鉴定(通过对现场特性的直接观察和远距离的检测报告)来解释滑坡发生的特征。这样虽有相当可能判明既往事件,但是在撇开专家主观性及定性判断的情况下,几乎不能支持任何预测。

近几年来,已经提出了基于成带现象的大地构造模型。然而,基于大地构造模型的计算方法,或者说实际上是基于指数叠加的方法,限于数据不足或数据质量的低下,尽管其自然基础相当稳固,仍经常是不可靠的。

另一方面,通过“客观”的可复制模型进行的预测,分析家对可能的、有限的随机选择感到兴趣。特别是下列这些情况:

·当具有相当重要性的规划设想涉及到社会冲突时;

·当现象不容易觉察时;

·当对覆盖整个所关心区域的现象做详细测图所耗费用过于高昂,因而有必要对那些需更深一步了解的区域进行“筛选范围”模拟的时候。

一般说来,模拟过程与决策很相似,而且其工作具协调性和基础性。灾害地图之所以合理的一个理由,是通过专家的专门鉴别,可用模拟方法学的手段再现、复制,可以有助于认识的社会构成,亦即在管理者、社区公众以及科学家之间分享正确的决策准则。

这一原因导致开展使用概率进行预测的可能性的调查研究。在这些探索过程中,充分运用有关滑坡事件的先验性知识,通过合理地确定参数,用模糊的、或随机的地图套叠方法进行概率预测。

在最近几年,对这种方法做了很多探索。所有这些方法已经比较广泛地使用于敏感性分析或不同方法的性能对相同案例的研究。目前,在这些应用中存在的主要困难是不同的地图的对比。

有人提出了一种解决问题的构想,以完善绘图功能。在那些作者们的工作中,显示了概率、模糊的范畴,并可用现象发生地区最支持性的探测功能——例如滑坡或者矿藏——来证明。这些技术通过推测、校核而发挥效用;对其他诸如神经和贝叶斯(Bayesian)网络等方法,其共通特征与一般的数学模拟近似。以这种方法能轻易地找出一种称之为预测比率的独特标准,它主要用于比较不同预测地图,堪称使模型具有良好性能的有效措施。对其解释如下:支持性函数的用途在于以产生至少包含科学家基于规章的判断,即可从现场经验获得的、预测大部分正确的地图为目标。当然,随后由于专家对现象认识和理解的逐步深化在评估期间必然要求选择多种模拟。同时,由于协调不当而产生变量的假定概率,以及数据缺乏和不可靠,也可引起谬误的结果。不过,运用定量法可以使模型的校准和确认能够支持预测的透明度和合理性。支持性函数模拟方法最近已在专门为其安排的某些案例研究中应用。

本文目的在于,探讨支持性函数模拟对用现有的数据库标准认定的滑坡事件,编制灾害地图的可应用性,并且检查这种方法在现有的数据库里信息的运用中如何改进,以与其他技术(例如,每个岩性单位的滑坡频率编图或者纯粹的滑坡目录清单似的绘图)相比较。

支持性函数模拟也可用于构建数据库的概念性设置:数据的收集严格依赖于在理论框架上对最佳可用信息的准确理解。

2 理论背景

很多作者指出,数值技术的使用与那些对相关现象自身属性的局部价值认为值得关注的事件相联系。属性被认为是事件的证据因素,“或然性”、“可能性”或者发现事件的“可能”程度,在一定意义上与每个相关属性的存在非常符合。假定 A是已进行分析的定义域,而 F是被检查的事件现象。若 r数据层为有效数据,则对于每一个属性种类中的mk来说,设定k=1,…r,便可对每个数据层定义一个分配函数:

地质灾害调查与监测技术方法论文集

它将 A的每个象素分配到k层序列中的一层中;可以为每层确定另一个函数:

地质灾害调查与监测技术方法论文集

在这种情况下,地图在每个层里出现一个数值下降的间隔[a,b]。在此,a和b取决于分析者(如稍后将指出的那样)所做的进一步假定。这个数值代表支持性(favorability),即假定一旦遭遇某种特殊种类属性现象出现时的可靠程度。

对作为每个数据层的函数成分 V和R被定义后,支持性函数可表示为:

地质灾害调查与监测技术方法论文集

间隔极值 a,b必须由分析家据其“可靠性”的解释而定,若认为可靠性与“可能性”相同,则 a=0,b=1。若令可靠性范围等于确定性系数,则 a=-1,b=1。如果选择不同的方法,则可能需要另外的数值。

支持性函数在本项目中的不同用法将在本报告中予以陈述。

若支持性假设为与特定现象 F相关,设定与事件的可能性一致的属性种类为E1,…,E。,然后根据贝斯定理,按 E1,…,E。独立条件假说,可写为:

地质灾害调查与监测技术方法论文集

在ppsI中,I=1,…,n,是发生必然属性种类的优先概率,并且可用该属性种类存在的总面积的百分比进行估算。pps1至n作为属性种类的先期共同可能性考虑;这可以作为全部种类共同发生的总面积的百分比。ppaI,I=1,…,n是观察到的F对于属性种类Ei事件的可能性;这可以根据公式计算。ppaI=1-(1-(areaI)-1)nb(I),其中areaI是符合i系列条件的面积,而nb(i)是与F条件也符合的i系列的面积。psF是所有覆盖整个区域的F的优先概率,并可用所有符合F条件面积的百分数算出。

按此法则,一张地图可以由发生的属性种类的每种组合的计算编制出。这可以通过常规交叉作业程序,在GIS的栅格内 *** 作完成。

如果使用确定性系数,则运算法则作如下相应变动:

(1)一种属性种类的确定性系数可以定义为:

地质灾害调查与监测技术方法论文集

式中:I=1,…,n;n是作为原因因数的主题数据种类的数量。

(2)对两个数据种类来说,确定性系数根据下列法则计算:

当 CF1和CF2均为正号,那么 CF1+2=CF1+CF2-(CF1×CF2);

若 CF1和CF2符号相反,则 CF1+2=CF1+CF2/{1-min(|CF1|,|CF2|));

若 CF1和CF2均为负号,则 CF1+2=CF1+CF2+(CF1×CF2)。

(3)程序通过首先计算 CF1+2=CF12,然后 CF13=CF12+3等等,按此重复 *** 作可获得更多的图件。

作为最后的方法,采用模糊集合论通过计算“模糊总和”、“模糊产出”,“模糊与”、“模糊或”以及“模糊非线性函数”。所有这些函数都是在假设 F存在的可能性预测值等于给定的种类EI(即 ppaI)的条件下进行运算的。它们是:

·“模糊与”=min(ppaI),I=1,…n;

·“模糊或”=max(ppaI),I=1,…n;

·“模糊结果”=Ⅱ(ppaI),I=1,…n;

·“模糊总和”=1-Ⅱ(1-ppaI),I=1,…n;

·“模糊非线性计算”=(模糊总和)(模糊结果)1-γ,γ是0:1范围的参数。

按此方法,可确定编制覆盖层地图的法则,以便分析家能评价覆盖整个研究地区的不同事件属性数据差别,并有助于进一步识别存在更多现象的场地。这些计算结果代表与被认为属于有利性的现象相关指标的数目。必须注意到,除已描述之外,根据相应的资料证据分量、可信功能、线性回归覆盖概率以及其他诸多条件,可采用不同的技术。

必须指出,优先概率psF需要对确定性系数的估计测定而计算获得,但将它用于绝对边界条件是无意义的,因为要预知未来的滑坡事件的可能性实际上几乎是不可能的。预测根据的理由必须在概括全部条件求得支持性指标后,方可确认,而不能以对灾害的数字计算结果为依据。

3 应用

用于本案例研究的地区在意大利(图1)北部的萨维(Savio)河流域。区域地质概况基本上为泥灰岩和沙岩组成的一个沉积盆地。可更详细分为以下3种主要的地质岩层:

图1 研究区位置图

(1)托尔顿阶(Tortonian N1)为灰色砂质和泥质浊流沉积岩,是主要地质岩层,并出露于这条主要溪流两侧。

(2)由微晶质石膏与泥质粘土和沙层互层组成,而其基底为含硫石灰岩地层。

(3)由泥质岩、砂质岩和砾岩3层构成,全部含有灰岩层。

此外,还有淤泥质泥灰岩层、晚始新世砂岩地层、上新世粘土以及混杂堆积的粘土层出露地表。

该地区被大量滑坡覆盖,在不同的地质单元内,大多数情况下是以滑移型或泥石流型的运动形式发生。而且,有的地区有岩石崩落,并存在块体平移运动,然而对它们均未做过分析。研究过程中使用的数据由埃米利亚·罗马格纳地区地质调查所(Regione Emilia Romagna Geological Survey)提供。

用于本案例研究的数据库由若干主题层构成,它们涉及:

·线性构造(断层,向斜和背斜),比例尺1:50000;

·岩性单元,比例尺1:50000;

·根据CORINE欧洲工程指南协议,从TM陆地卫星映像获得的土地覆盖情况,比例尺1∶50000:

·数字地形模型(DTM),根据从Regione Emilia Romagna地方当局的地图数据库中获得的、通过计曲等高线内插、等高距为50m的等值线制成;

·整个地区的7个降雨计量站的降雨测量数据;

·数字化水文网,比例尺1:10000。

必须强调,数据库的分辨度非常低劣,另外,数据在比例尺上很不均匀。有人会认为特别是当与平均滑坡面积进行对比时,地形信息明显很不精确,因而成为非实际滑动的运动学的代表。这项研究的目的是评价现实世界数据库的预测能力(前已阐述),必须意识到,重要的不是做出可靠的灾害地图,因为最好的信息虽已被应用殆尽,但不可能有任何更深远范围的调查和数据可供获取。正如在以下内容所强调的那样,与土地计划的预测相比较,评估的结果将为数据库的改进给予更多的输入内容。

从DTM数字地形模型中形成了坡度和坡向地图,并用固定的数值间隔对坡度做了分级。

对线性构造的距离做了计算,目的在于评价构造干扰对坡体稳定性的可能影响。以对栅格地图和栅格化作为计算结果。

分析了降雨资料,以查明高程与年降雨量之间的关系。从这两个变量的一个回归方程发现:y=07086x+70819(R2=066),x为海拔高程(m),y是超过30年的长时间级数降雨量的总平均值(mm/a)。后来用该方程式做了一幅连续降雨地图,结果明确显示,DTM既像降雨特征的指示剂,同时也犹如位能释放的一个显示器。

应当注意,过高的高程与降雨的相互关系相当微弱,而更进一步的分析则要求更好地描述该地区的实际降雨分布情况。然而,依据现有数据,仅能说明已经适当地查明了降雨分布的一般趋势而已。

尽管概念上的差异特性可以在滑坡的现象情况与所需的因素之间梳理出来,然而,当其他所需要特征都存在的情况下,恰恰只是“要素”触发了滑坡。可以认为,所有这些数据层都可能具有优先意义。

至于存在滑坡可能性的数据,只能依赖地方当局的土地不稳定情况报表获得。应着重指出,数据库适用于构建GIS的长时间序列分析。而且,其数据的密度和分布,按统计学来看,属具典型意义的现实滑坡分布。可以证明,事实上,当为贝叶斯程序培养的数据集不是足够大(并且排列也不足够随机)——这关系到对分区性随机变量的获得——的时候,按定量评价的观点衡量概率综合模拟,是毫无意义的。本案例中,滑坡发生的优先总和有利性条件(级别—特殊)的概率ppa1和psf,需由专家们判定。而且,选择滑坡的类型和年龄以便培养数据系列是重要的,这样的系列可照顾到同类滑坡。已有人进行了关于“泥石流”和“崩滑泥石流”类型滑坡的分析,认为通常发生在局部地区。在本研究项目中,仅在编制一些图件时有效地应用。

地区土地不稳定性报表记录也考虑了岩石崩落、块体滑动以及潜在不稳定的地段,但是这些没包括在分析过程中。图2显示了用于分析的数据层。

被考虑的全部主题的数据原则上有相互关联的可能性。由于多余的信息将可能导致无效结果,因而做一些尝试性计算。为了分析的目的,已进行了一次对7个主题条件(即,降雨地图、岩石学、土地覆盖、坡度、坡向、与水文网的距离及与线性构造的距离)的联合性试验。7个主题条件分类列入独立的图例内,并作为促使滑坡体产生活动的条件在地图上的识别标准。

对每一个地图偶对做了4个指数的联合计算:

·x平方(x2)指数;

·克拉默(Cramers)指数;

·意外事故指数;

·共同信息不确定性得分。

这里,第一个指数被确定为:

图2 用于预测的原因因素主题图

地质灾害调查与监测技术方法论文集

式中

地质灾害调查与监测技术方法论文集

而 T=象素的总数,Ti=地图1中 i类象素的数量,Tj=地图2中 j类象素的数量。指数 n和m分别是在地图1和地图2中的种类数目。

克拉默指数(V)和意外事故指数(C)确定如下:

地质灾害调查与监测技术方法论文集

相同符号的含义相应同前,同时 M取(m-1,n-1)的最小值,而 n和m分别是两幅图中每一幅中的数据种类的数目。

图幅偶对 A和B的共同信息不确定性得分取决于:

地质灾害调查与监测技术方法论文集

其中

地质灾害调查与监测技术方法论文集

n、m分别是在地图A和地图B里种类的数量,而Pij则是在地图A和B的交会线上i和j种类的像素数量分别对像素总量的比率。Pj是地图A中种类j的像素总数量,而 Pi表示种类i在地图B中的总像素。

上述指标可判断一个地图偶对之间的协调性尺度。x平方指数给出协调性(无上边界的)绝对尺度,而对其本身没用;V和C表示区域内预防标准的尺度[0,1],它们越是接近1,则两张地图之间的联系越强。这3个指标结合使用,可提供关于联系性的一个综合尺度标准,并允许我们超越一套地图从不同角度去比较像对的联系性。通常,可能注意到3个指标呈现如所期望那样非常相似的反应。不确定性共同信息记录也可用于确定由前面的指标测定的联系性模型,并假定在0(完全独立的地图)和1(完全联系的地图)之间改变。表1展示了如上所述的地图计算的指标。

表1 数据层之间的联系性指标

尽管未使用计算的指标,在严格条件下,对于确定贝叶斯条件(比非联系性质更强)的独立性,这些由全部数据层推断而得出的联系性指标,可能应当是独立的。

正如分析所指出的,必须被注意到,滑坡显示出与岩石学的某种联系(只有一个滑坡,岩石学主题由于共同信息的不确定性,具有非相关性),并与海拔高程/雨量以及地表覆盖存在空间联系趋势。

应当指出,若从因果关系以外的因素看来,岩石学与海拔高程/雨量和土地覆盖是相关的,而与坡度之间的联系较弱,与其他主题的联系则极少或无联系。提供给研究项目的不甚适用的DTM似乎是造成这一现象的首要原因。除在坡度和降雨量/海拔高程之间的微弱的联系外,其他联系可能均未予考虑。

根据当地地质调查所的分析似乎也得出同样的结论,岩性的因素仅仅用于编制滑坡灾害图以及拟定作为滑坡灾害指标的每个岩性单位的滑坡频率。

在每次运算期间,只有已知滑坡(通过随意抽样选择)的一半用来生成预测地图,然而剩下的东西,应当视为同样有效的数据群。作为滑坡灾害预测尝试,最先使用潜在原因因素,而在第2次试验过程中,只使用了3个最为相关的因素,这将在后面的章节中予以解释。

4 结果讨论

支持性函数的计算如以下将予以描述的那样,是在不同的模拟假定前提下进行的。每一幅由计算生成的良好地图的预测能力,用曲线的预测比率进行测试。这种曲线,是通过研究地区的累积百分率标定分类,以支持性评定数值的递减量(遵循上面提到的各种法则)作为横坐标,以滑坡地区的累积百分率作为纵坐标而做成的。据说,当预测的滑坡百分比与区域最大值的20%相一致时,便是对模型预测能力的良好评估。更广泛的观念是,曲线越是有规则的接近纵轴,则预测越加吻合。相反,若更多的曲线靠近45°直线,则说明组合因素造成预测靠近支持性数值的随机分布范围,这种预测的有用价值极小。在因果因素中,已经认识到水文网络所起的作用较小,这是因为为其所拟定的细节,要比其他因素的精密度高得多。乍看起来河流切割“遍布”各地,因而不便于将滑坡分布与它和水文网络的距离加以联系。因此,在因果因素中没有包括河流水系。

在图3中对已考虑的6个因果因素的预测比率,逐个予以显示。本项目中,预测者估计的条件频率ppaI,I=1,…n(发生滑坡事件的条件概率,给定的种类 i)适于每个主题内的每一个种类。

图3 原因因素预测的比率——使用整个滑坡封闭折线和条件频率

第一步计算用作证据的数据,来自图解滑坡活动的全部封闭折线。滑坡被分解成两个随机取样组,其中一个用于标定,而另一个用于证实。计算作业使用了3个最相关的主题(岩性、土地覆盖以及海拔高程/雨量),遵照先前描述的指标。预测比率曲线用图4显示。

进一步使用所有的6个指标进行了计算,其预测比率用图5显示。

我们注意到,由于整个滑坡体均被绘制,因而这可能会含有一些精确性的偏差;由于因果因素的集合,致使滑坡触发点和滑坡前缘不相同。因此,在每个滑坡封闭折线内预测,只使用最高点;若从物质运动的运动学原理考虑,触发点应当在最高位置。6个因果指标在此假定前提下计算的预测比率,如图6所示。

图4 7位预测者预测的比率——使用3个因果指标

(岩石学、降雨量和土地覆盖)和整个滑坡封闭折线

图5 7位预测者预测的比率——使用所有6个相关的原因指标和整个滑坡封闭折线

7位预测者使用3个和6个因果指标的预测比率,分别用图7和图8显示。

就输入数据的相关性而论,表明使用坡度、坡向和雨量分布(即更准确的DTM和雨量——由更区域化的降雨计量器获得的数据)具有更好的代表性,将使结果得到改进。一旦得到新数据,分析者们便可重新评价其对预测的潜在影响。

从预测比率的比较中可以确定:

·当使用6种因果指标代替3种与滑坡关联性更好的指标(岩石学、土地覆盖以及雨量)时,似乎没有明显的改进;在两种情况下的预测表现得非常近似,这恰似对种类群用了修整清除器,然而更多的指标是被应用了的。

·更进一步的清除效果可由只用触发点,而无需考虑滑坡整体来作为证据。这不至于带来地图总体预测能力的恶化;但同时也须顾及到,过量的清除有可能会导致绘图的可靠程度降低乃至消失。

图6 只使用触发点因果指标预测的比率

图7 7个预测者只使用3个因果指标(岩石学、土地覆盖和降雨量)和触发点预测的比率

图8 7个预测者使用6个相关因果指标和滑坡触发点预测的比率

·岩石学在原因指标的预测比率图解中,无论如何显然具有更高的预测能力(如此则可理解,为何当地地质调查所单独选择了将这个主题层用于灾害制图),当然还包括土地覆盖和降雨。然而并非其他全部主题都与预测相关。

·在本案例研究过程中,除贝叶斯可能性的情况外,7位预测者所用的预测表现得极其近似。然而数据的有效分布性是非常敏感的,当整个滑坡体被用作证据,并处于模糊“或”、“与”的某些场合时,则预测均近乎为随机性的。通常,似乎确定性系数是预测者在这一具体案例的研究中最有用的手段,虽然在每种情况下,一些预测者以预测比率曲线和预测地图所作出的预测实际上相同。

图9显示了在本案例中,进一步显示了将3个因素与作为主题证据的触发点共同配合使用时的7种预测。这是本案例研究过程中探讨的情况之一,它具有更好的预测比率,并且可能对滑坡灾害成带性作出最佳的基础性思考,显现了当前的认识状态。

图9 根据7种预测做出的预测地图

5 结论

本文讨论的方法是使用数字模型(较少需要专家的主观判断),依据滑坡灾害来划分土地等级。这似乎表明,当客观预测可从空间数据库中提炼出来时,则可以说明其主题有一些“系统”增加的价值,即全部数据都共同使用比仅只使用某些主题的效果更好。

必须强调,这种方法从现有数据库的开发入手,且保留对每个主题认识的开放、完善。在最好的预测者们各种各样的测试(确定性系数、贝叶斯可能性、模糊的 *** 作和其他可能的技术)中,仅能根据各种测试技术的预测能力做出选择,最后则慎重地使用了预测比率曲线进行预测。

这些分析已经引发了现有的数据库尚属不健全的认识,当然,仅指为了生成预测模拟使用目的的地形数据不甚适当而言。这寄希望于未来投入进一步的调查研究并捕获数据,以确定一种更佳的数字化地形模型。只要改进的原因因素地图一旦产生,或者一个新的原因因素被确认与现象相关,便可能重新进行计算,从而可能产生新的预测图。预测比率使用的有效性可按实际和有效改进进行检查,也可用来对数据收集和岩土工程监测的进一步努力指明方向。例如,在本案例研究中,岩性、土地覆盖以及降雨(如上所述,按高程描述)显然是滑坡的最相关的因素,因而到目前为止,分析主要致力于这些因素的调查和编图。更进一步说,准备并使用具有合适解读能力的DTM显得很有必要,其目的是为了更详细地检查地形数据的影响。分析也很重视其他主题条件,例如水体高程,对用于危险绘图时,它可能就变得相当重要。

毫不夸张地讲,大数据是准确的。否则大数据还有什麼意义呢大数据的关键在於这个"大"字。这个大字,不是大小的大。而是指数量大,样本大,规模大。大数据之所以能够得到重视,并且能够得到广泛的应用,最根本的一点就是它从本质上反映了统计学的规律。就个例而言,大数据可能不准确。但从宏观上看,大数据一定是准确的。

新冠病毒刚开始出现时,包括医疗机构在内,并不知道是怎麼回事。也因此没有相应的治疗方法。莫名其妙的发热,乃至病亡,引起疾控部门的重视。统计数据更是提醒新冠肺炎来势凶猛,传播极快。此时此刻,正是大数据为决策者提供了依据。在没有相应的有效治疗办法的情况下,为了控制疫情蔓延,只能封城。强制性地减少人与人之间的接触。封闭,隔离,使大家都感到不便。但强制性的隔离措施大大减少了病毒感染的人数,这是不争的事实。可见,大数据提供的信息是准确的,有益的。

当今社会时代是一个开放的时代。每时每刻都有大量的人流,物流,信息流在快速流动传播。如何从这些大量的快速的流动中找到基本的规律,在更高的层次上进行梳导和管理,是管理者不可推卸的责任。而要真正做到这一点,大数据是必不可少的管理手段和技术。大数据如此重要,不准确显然是不允许的。

大数据的准确性是有一系列的技术保障的。从数据的收集,统计,到最终做出科学合理的决策,都不能马虎敷衍,它有一整套严格的 *** 作流程,确保数据可靠有效。

一般情况下,大数据分析,是提供概率的,比如,同一时间、同一气候条件下,吃午饭点某个炒菜的概率是多少!

我感觉正如你所说的大数据不太准。大数据是指数据的真实性、准确性、可信赖度和数据质量等。数据库是获取、存储、管理、分析,工具软件,信息数据集合。

大数据特点是:1、多样;2、大量;3、高速;4、低价值密度;5、真实性。

大数据管理在变化,不断地提高数据质量。现在是信息时代,各行各业都在研发和使用数据库模块,实现数字化。网上购物用得吃的早已普遍大众化,网上法院、办公、教学、培训,医疗保险等等都是新模式,办事需要身份z,现在扫码变成数字化这是方式的变革,驾驶证变成电子证也就是数字化管理模式,疫情期间扫吉祥码终端就知道的疫情期间行踪轨迹路线。扫码是能够知道身份z号、家庭住址、配偶、子女、工作单位、父母和亲属等一系列需要的信息,想要了解这些信息只是集合权力而已。

现在随着变化适应时代,大数据库需要不断变化适应时代发展需要,换句话说,通过大数据库不出门就能从你出生到现在和想要知道的一切信息。可以说数字化给我们带来便利,改变生活、消费方式都是变革式的。未来建立更多的数据库,譬如,建立完善医疗看病数据库,病源追溯,医疗责任,金融、 社会 保险更体现人性化,建立完善食品安全追溯系统等等,都须要建立完善大数据库和质量,提高数据准确性、可信赖度。今天,我们想引用一些大数据共享大数据带给我们的便利,必须要以官方公布的数据为准,官方公布的数据是受法律法规保护,有知情权和解释权。总之,引用使用大数据按照规定去做,否则是要负法律责任的。我们处在信息变革的时代,携手共进,拥抱明天。

大数据是全量数据统计,它不准,难道抽样数理统计结果更准吗?

先回答大数据准不准的问题:

可以肯定地说大数据是非常准确 ,这个毋庸置疑,大数据的分析能力以及速度是非常急速的,假如你感觉大数据不准,那只有一个可能就是,有人在引导你的思维。。。。

对于为什么说大数据准确,我们首先了解一下大数据的概念:

对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。他是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,

大数据的 特点

海量的数据规模、 快速的数据流转、多样的数据类型和价值密度 四大特征。

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

未来什么最值钱:那就是大数据

有很多数据不一定真实。

大数据工具不应该破坏现有的数据仓库环境。虽然大量低成本,甚至零成本的工具降低了准入门槛,它们构成了Hadoop的生态系统,支持其存储和管理大量数据集的能力。很多原本居于商务智能和分析系统中心地位的企业数据仓库收到冲击。但是企业在数据仓库中投入了很多资金、资源和时间,建立并完善数据仓库的查询、报表和分析功能。企业不愿意这一切都付之东流。即便企业已经选择在Hadoop或NoSQL数据库上搭建新的商务智能和大数据分析架构,这也不是一朝一夕能够完成的。通常,这种转变还要以牺牲服务质量,甚至业务中断为代价。

因此,大多数企业都会选择集成的方式,让新旧系统技术协同工作。比如把基于Hadoop的客户分析应用和现存客户数据仓库结合起来。来自于数据仓库的客户数据可以放到Hadoop应用程序里进行分析,分析结果在返回数据仓库。

大数据关联

集成的第一步是在数据仓库和大数据平台间设置关联。目前,大数据系统主要用于增强数据仓库的能力,其数据存储的成本要低于传统数据仓库。很多早期用户还会在数据仓库分析数据之前,采用Hadoop集群和NoSQL数据库存储数据。这些应用使用起来都很简单,就像用Hadoop分布式文件系统(HDFS)存储数据一样,也可以通过Hive,HBase,Cassandra和其他NoSQL技术建立更复杂的关联。

将这些工具和数据仓库与商务智能框架结合起来需要关联性和说明。可以使用应用程序界面为数据仓库提供Hadoop和NoSQL系统的接口。另外,不少供应商都提供连接SQL数据库和大数据系统的封闭的连接器,包括基于集成标准的ODBC(开放数据库连接)和JDBC(Java数据库连接)。对于不能适用于传统关系模型的系统,可以用一个集成层将半结构化数据从原格式(比如YAML或JSON)转到可被商务智能应用读取的格式。

如果要集成更加紧密,还有其他的方法。例如,数据仓库系统逐渐对MapReduce功能开放,从而增强SQL语言,将Hadoop集群的分析处理和商务智能查询结果结合起来。更一个例子是将Hadoop分析结果和数据仓库结合起来,用来生成报表和分析。

大数据阻力

随着大数据的不断发展,对很多IT和数据仓库团队来说,集成不同的应用迫在眉睫。一种高度灵活的集成方案至关重要。

脱节的体系结构。一种典型的方法是试点项目或验证概念,或测试早期产品应用,包括在自己孤立的环境中部署Hadoop或NoSQL系统。一个结构完整的集成方案必须把IT和数据架构与业务洞察力和设计结合起来,在混合型数据库、商务智能和分析架构中部署多种层。

管理缺陷。大数据工具的开源本质往往会导致企业只重功能不重管理。随着商业话大数据软件的成熟,这种状况会得以缓解。但现在仍要重视管理能力的提升。

技术短缺。扩大大数据集成面临的最大的挑战就在于使用Hadoop和NoSQL技术过程中产生的陡峭的学习曲线。毕竟在IT圈内,平行和分布式处理技术还很难懂,真正有开发和升级大数据应用经验的人就更少了。内部培训也许是速度最快、成本最低的方法。

在把Hadoop和NoSQL与数据仓库环境集成的问题上,很多公司关心的不是可行性,而是时间。早作准备,可以对面临的阻碍有一个良好的把握。对于不同的集成需求,企业需要构建可重复的解决流程,这才是项目的最终目标。

以上就是关于预测模拟技术在空间数据库优化开发中的应用——专家系统类比法滑坡灾害制图案例研究全部的内容,包括:预测模拟技术在空间数据库优化开发中的应用——专家系统类比法滑坡灾害制图案例研究、大数据准不准、如何把大数据工具和原有数据仓库集成等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/10094164.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-05
下一篇 2023-05-05

发表评论

登录后才能评论

评论列表(0条)

保存