在遥感图像处理系统空间数据库的建立过程中,由于我们的大部分资料来源于现有的地图,因而以地图的数据处理,采用扫描矢量化的数字化手段进行数据录入,各种地图处理,数据入库工作流程可分为预处理、图形扫描数字化、图层数据建立拓扑关系、建属性数据库、图层矢量数据与属性数据联接、投影转换、图幅拼接、图面整饰、数据入库九个阶段。如图7-9所示。
图7-9 数据采集工作流程图
(1)图形预处理
资源信息是多源和多尺度的。毫无疑问,对这些资料的初步整理是数字化工作进程的重要一环。
本系统将采用统一的坐标系统,坐标系为1980西安坐标系,高程系为1985国家高程基准。所有的图形数据均应该转换到此坐标系。
(2)图形扫描数字化
在地图数据采集过程中,由于地图原图质量、内容、比例尺和扫描过程中的种种因素,根据纸介质地图的图形要素和彩色特征提取的分层图仍会带有各种噪声以及不需要的其他一些信息,为了获得正确的、干净的数据,在数字化之前,要进行二值化、去脏、光滑、断线修补、细化处理等预处理步骤。
(3)图层数据建立拓扑关系与图形编辑
矢量化后的各图层,利用ArcGIS软件提供的功能建立拓扑关系,在建拓扑关系时会发现图形数据错误,要进行编辑、修改,再重新建立拓扑关系,这一过程可能做多次,直到数据正确为止。
(4)建属性数据库
按已采集的属性数据表,和标准规定格式,利用通用的数据库管理软件建立分层数据库,文字型数据要按标准代码录入。
(5)图层矢量数据与属性数据联接
按图元编码(用户ID)将矢量数据与属性数据联接。对于已建立联接的各类空间数据和属性数据,通过ArcGIS 系统对它们做进一步的编辑和修改,确保数据库的准确性和完整性。在ArcGIS 系统中,图形数据被分成“点”、“线”、“面”三种几何要素,它们都有各自相关的属性,在进行拓扑处理后,这三种要素间便拥有了相关的空间拓扑结构,这种空间数据关系与相应的属性数据是一种动态联结关系,这也是在ArcGIS系统中能够进行空间分析的关键所在。属性数据的编辑可通过ArcGIS系统的数据库管理系统进行数据结构定义(如数据项名称、类型、长度等)、数据编辑(如插入、删除、拷贝等)、数据查询检索等等,形成可供使用的属性数据库。
(6)投影转换
同一工作区可能利用不同比例、不同投影的图件,要对不同来源、不同时间分辨率和空间分辨率的点、线、面数据进行计算,在拼接图层之前必须对它们进行投影转换,使最终形成的图层均投影到一个坐标系统。
(7)图幅接边
图幅接边的目的是要保持图面数据连续性。工作区有多幅图构成,按上述步骤每幅图分层建立起图层之后,要对各相邻图幅分层进行拼接,图幅的接边精度要满足相应比例尺的国家精度要求。各图层中线图元或面图元拼接后其图元编号要进行改变,在右边图幅中的图元拼接后用左边图幅内的图元编号,下边图幅的图元改用上边图幅的图元编号。其属性数据也要合并为一个,属性数据结构不相同的图元(线或面)不能进行图幅拼接。对于一些图面标注的内容也要做相应的调整。到现在为止,已完成了图形库的建立工作。拼接完成后,仍按图幅分开储存与管理。
(8)数据入库
前面数据处理的目的都是为了使图形进入GIS数据库系统中,以作为其他应用系统的数据基础。图形数据将采用空间数据管理方式、利用系统软件将所有图形及属性统一存放于Oracle之中。
(9)图件输出与图面整饰
在每一图幅数字化完成后,或工作区各图幅分层拼接之后,要对图面标注内容逐一添加到图面上。按有关图例符号标准和用色标准对相应点、线、面图元的线型、符号、颜色进行设置定义。再就图名、图例、比例尺及其图面内容整饰后,输出图件成果。
(10)数据质量控制
检查内容包括数据完整性、逻辑一致性、位置精度、属性精度、接边精度、现势性等是否符合国家标准及有关技术规定。专题图形数据库建设质量控制的方案如下:
建立数据采集标准规范,详细阐述不同要素的采集要求,作为数据采集的根本基准,统一采集认识。
进行数据采集人员培训,熟练使用采集软硬件,掌握采集规范,采集过程中填写详细的图例簿,统一图例簿格式,记录每幅图数据生产过程的基本情况,特别是作业时遇到的问题及处理意见,质量情况等。
数据质量控制采用分级分层管理方式,首先,数据生产 *** 作人员在数据采集过程中严格遵守数据采集规范标准,采集后进行数据的第一次检查;其次,数据库集成人员进行第二次数据质量检查;最后,系统总工随机抽样检查。
检查方式多种多样,这里主要采用以下3种:屏幕视觉检查,打印出图检查,查错软件检查。
作者 | 向倩文
来源 | 数据产品手记
大多数人对数据可视化的第一印象,可能就是各种图形,比如Excel图表模块中的柱状图、条形图、折线图、饼图、散点图等等,就不一一列举了。以上所述,只是数据可视化的具体体现,但是数据可视化却不止于此。
数据可视化不是简单的视觉映射,而是一个以数据流向为主线的一个完整流程,主要包括数据采集、数据处理和变换、可视化映射、用户交互和用户感知。一个完整的可视化过程,可以看成数据流经过一系列处理模块并得到转化的过程,用户通过可视化交互从可视化映射后的结果中获取知识和灵感。
图1 可视化的基本流程图
可视化主流程的各模块之间,并不仅仅是单纯的线性连接,而是任意两个模块之间都存在联系。例如,数据采集、数据处理和变换、可视化编码和人机交互方式的不同,都会产生新的可视化结果,用户通过对新的可视化结果的感知,从而又会有新的知识和灵感的产生。
下面,对数据可视化主流程中的几个关键步骤进行说明。
01
数据采集
数据采集是数据分析和可视化的第一步,俗话说“巧妇难为无米之炊”,数据采集的方法和质量,很大程度上就决定了数据可视化的最终效果。
数据采集的分类方法有很多,从数据的来源来看,可以分为内部数据采集和外部数据采集。
1.内部数据采集:
指的是采集企业内部经营活动的数据,通常数据来源于业务数据库,如订单的交易情况。如果要分析用户的行为数据、APP的使用情况,还需要一部分行为日志数据,这个时候就需要用「埋点」这种方法来进行APP或Web的数据采集。
2.外部数据采集:
指的数通过一些方法获取企业外部的一些数据,具体目的包括,获取竞品的数据、获取官方机构官网公布的一些行业数据等。获取外部数据,通常采用的数据采集方法为「网络爬虫」。
以上的两类数据采集方法得来的数据,都是二手数据。通过调查和实验采集数据,属于一手数据,在市场调研和科学研究实验中比较常用,不在此次探讨范围之内。
02
数据处理和变换
数据处理和数据变换,是进行数据可视化的前提条件,包括数据预处理和数据挖掘两个过程。
一方面,通过前期的数据采集得到的数据,不可避免的含有噪声和误差,数据质量较低;另一方面,数据的特征、模式往往隐藏在海量的数据中,需要进一步的数据挖掘才能提取出来。
常见的数据质量问题包括:
1.数据收集错误,遗漏了数据对象,或者包含了本不应包含的其他数据对象。
2.数据中的离群点,即不同于数据集中其他大部分数据对象特征的数据对象。
3.存在遗漏值,数据对象的一个或多个属性值缺失,导致数据收集不全。
4.数据不一致,收集到的数据明显不合常理,或者多个属性值之间互相矛盾。例如,体重是负数,或者所填的邮政编码和城市之间并没有对应关系。
5.重复值的存在,数据集中包含完全重复或几乎重复的数据。
正是因为有以上问题的存在,直接拿采集的数据进行分析or可视化,得出的结论往往会误导用户做出错误的决策。因此,对采集到的原始数据进行数据清洗和规范化,是数据可视化流程中不可缺少的一环。
数据可视化的显示空间通常是二维的,比如电脑屏幕、大屏显示器等,3D图形绘制技术解决了在二维平面显示三维物体的问题。
但是在大数据时代,我们所采集到的数据通常具有4V特性:Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值)。如何从高维、海量、多样化的数据中,挖掘有价值的信息来支持决策,除了需要对数据进行清洗、去除噪声之外,还需要依据业务目的对数据进行二次处理。
常用的数据处理方法包括:降维、数据聚类和切分、抽样等统计学和机器学习中的方法。
03
可视化映射
对数据进行清洗、去噪,并按照业务目的进行数据处理之后,接下来就到了可视化映射环节。可视化映射是整个数据可视化流程的核心,是指将处理后的数据信息映射成可视化元素的过程。
可视化元素由3部分组成:可视化空间+标记+视觉通道
1.可视化空间
数据可视化的显示空间,通常是二维。三维物体的可视化,通过图形绘制技术,解决了在二维平面显示的问题,如3D环形图、3D地图等。
图2 可视化空间示例
2.标记
标记,是数据属性到可视化几何图形元素的映射,用来代表数据属性的归类。
根据空间自由度的差别,标记可以分为点、线、面、体,分别具有零自由度、一维、二维、三维自由度。如我们常见的散点图、折线图、矩形树图、三维柱状图,分别采用了点、线、面、体这四种不同类型的标记。
图3 标记类型示例
3.视觉通道
数据属性的值到标记的视觉呈现参数的映射,叫做视觉通道,通常用于展示数据属性的定量信息。
常用的视觉通道包括:标记的位置、大小(长度、面积、体积...)、形状(三角形、圆、立方体...)、方向、颜色(色调、饱和度、亮度、透明度...)等。
图3中的四个图形示例,就很好的利用了位置、大小、颜色等视觉通道来进行数据信息的可视化呈现。
「标记」、「视觉通道」是可视化编码元素的两个方面,两者的结合,可以完整的将数据信息进行可视化表达,从而完成可视化映射这一过程。
关于可视化编码元素的优先级,以及如何根据数据的特征选择合适的可视化表达,下次会专题来分享下。
04
人机交互
可视化的目的,是为了反映数据的数值、特征和模式,以更加直观、易于理解的方式,将数据背后的信息呈现给目标用户,辅助其作出正确的决策。
但是通常,我们面对的数据是复杂的,数据所蕴含的信息是丰富的。
如果在可视化图形中,将所有的信息不经过组织和筛选,全部机械的摆放出来,不仅会让整个页面显得特别臃肿和混乱,缺乏美感;而且模糊了重点,分散用户的注意力,降低用户单位时间获取信息的能力。
常见的交互方式包括:
1.滚动和缩放:当数据在当前分辨率的设备上无法完整展示时,滚动和缩放是一种非常有效的交互方式,比如地图、折线图的信息细节等。但是,滚动与缩放的具体效果,除了与页面布局有关系外,还与具体的显示设备有关。
2.颜色映射的控制:一些可视化的开源工具,会提供调色板,如D3。用户可以根据自己的喜好,去进行可视化图形颜色的配置。这个在自助分析等平台型工具中,会相对多一点,但是对一些自研的可视化产品中,一般有专业的设计师来负责这项工作,从而使可视化的视觉传达具有美感。
3.数据映射方式的控制:这个是指用户对数据可视化映射元素的选择,一般一个数据集,是具有多组特征的,提供灵活的数据映射方式给用户,可以方便用户按照自己感兴趣的维度去探索数据背后的信息。这个在常用的可视化分析工具中都有提供,如tableau、PowerBI等。
4.数据细节层次控制:比如隐藏数据细节,hover或点击才出现。
05
用户感知
可视化的结果,只有被用户感知之后,才可以转化为知识和灵感。
用户在感知过程,除了被动接受可视化的图形之外,还通过与可视化各模块之间的交互,主动获取信息。
如何让用户更好的感知可视化的结果,将结果转化为有价值的信息用来指导决策,这个里面涉及到的影响因素太多了,心理学、统计学、人机交互等多个学科的知识。
学习之路漫漫,一直在路上, 我们会持续分享数据可视化领域的知识,记得持续follow我们哟!
2.3.3.1 开发环境
地质钻孔基本信息数据采集系统采用C/S结构(Client/Server,客户/服务器模式,简称“C/S结构”),利用面向对象可视化的高级编程语言Microsoft Visual Basic作为主要开发工具,mS Access作为后台数据库管理系统。根据系统软件的功能需求,采用模块化开发思路,编写完成数据输入、输出、浏览、检索查询、统计分析和数据管理等不同功能模块的应用程序代码。本系统是在Win⁃dows *** 作系统下开发的应用程序,其系统软硬件开发环境要求如下:
(1)硬件配置要求
Pen 4以上处理器的计算机、笔记本计算机;计算机与打印机有高速传输的连接接口,以纸张的形式打印输出报表清单;打印机、光盘刻录机等。
(2)软件配置要求
*** 作系统:Windows 2000 Server、Windows XP以上版本。
数据库技术:Microsoft Access 2003以上版本的数据库管理系统。
系统开发工具:面向对象的可视化程序设计语言Microsoft Visual Basic 6.0。
报表输出:Microsoft Office Excel 2003以上版本。
支撑软件:MapObjects 2.2。
2.3.3.2 开发流程
为便于对各省(区、市)地质钻孔基本信息清理工作形成的数据进行录入、修改和数据维护,地质钻孔基本信息数据采集系统采用通用的MS Access作为后台数据库管理系统,采用数据表单形式开发数据采集界面,提供数据列表形式浏览所录入的数据内容。录入数据不合要求时,系统会给出提示信息;录入各种代码项时,有详细的代码列表供用户选择;录入时间项时提示信息会自动显示;在数据采集界面上输入完数据后,数据入库前进行数据检验,不符合要求的数据记录无法入库,保证数据的安全性及数据的完整性。地质钻孔基本信息数据采集系统流程如图2.5所示。
图2.5 全国地质钻孔基本信息数据采集系统开发流程图
在完成数据采集功能的基础上,系统设计开发还实现了数据的检索查询、统计分析、报表生成和数据管理等功能。检索查询功能提供菜单、主窗体的系统工具栏标签和图形模式等3 种查询方式。统计分析功能提供按保管单位、行业部门、比例尺、工作程度、矿种、项目工作时间段、勘查资质等级统计、钻孔深度、矿区、钻孔终孔时间等属性项进行分类统计。钻孔资料信息统计完成后,根据需要可以生成数据报表,并可打印输出。为方便用户的使用,该系统还设计开发了数据导入、数据导出、数据备份、数据恢复、数据追加和清空数据库等数据管理功能。
2.3.3.3 采集系统的运行
(1)系统安装
地质钻孔基本信息数据采集系统的安装需要以下软硬件环境:
1)硬件环境要求:
●CPU:Pen Ⅲ以上。
●内存:256MB以上。
●硬盘:具有500MB以上的剩余空间。
●显示器:SVGA(支持1024×768分辨率及以上)显示器、MS-Mouse或兼容鼠标器。
●打印机:激光打印机或喷墨打印机。
2)软件环境要求:
● *** 作系统:Windows 2000、XP、Vista、Win7等 *** 作系统。
●数据库系统:Microsoft Office Access 2003以上版本。
●输出数据:Microsoft Office Excel 2003以上版本。
在以上软、硬件环境基础上,打开安装程序“地质钻孔基本信息数据采集系统(CDCS1.0)”,双击CDCS.EXE安装文件。根据安装提示,即可安装完成。用户可自定义选择系统安装目录,建议使用系统提供的默认安装目录。系统安装成功后,将在桌面形成快捷图标“ ”,同时在任务栏的 【开始】 菜单的 【程序】 中成功添加“地质钻孔基本信息数据采集系统”。
(2)系统卸载
在任务栏中选择 【开始】→【程序】→【地质钻孔基本信息数据采集系统】→【卸载CDCS】。或者执行控制面板中“添加/删除程序”,选择“地质钻孔基本信息数据采集系统”程序组进行删除。卸载完毕后,检查系统安装文件,如未删除,可手动删除安装文件。
(3)启动系统
在桌面上双击“地质钻孔基本信息数据采集系统”快捷图标或选择任务栏中的 【开始】→【程序】→【地质钻孔基本信息数据采集系统】→【CDCS】,启动系统。
在系统登录界面需完成以下 *** 作:
(1)选择数据源
点击 【数据源】 右侧数据源选择按钮,选择省(区、市)(或者全国)数据源,点击 【打开】,系统自动在 【管理员名称】 中生成省(区、市)名称。系统下次打开时,除需要另外选择数据源外,将默认打开上次登录成功的数据源和管理员名称。
(2)输入管理员口令
数据源选择之后,系统自动选择该省(区、市)的名称为管理员名称,管理员口令为该省(区、市)6位行政区划代码,即数据源提示的最后6位数字。
图2.6 地质钻孔基本信息数据系统主界面
(3)创建数据源
选择 【登录】,系统将自动检测在安装目录DataBase文件夹下是否存在该省(区、市)(或全国)数据源。如果不存在,系统则提示用户创建该省(区、市)的空数据源,并自动链接该数据源;如果已存在,系统则自动链接该数据源。选择 【登录】 后,进入系统主界面,如图2.6所示。系统主界面由系统功能菜单、导航窗格、系统工具栏、系统状态栏、数据/表单编辑/浏览区5个区域构成。登陆采集系统后,即可进行数据输入、输出、检索查询、统计汇总、数据报表、数据管理等方面的 *** 作。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)