2、数据开发,咱们供给了WEB-IDE,支撑SQL、MR、SHELL和
PYTHON等。然后咱们供给了冒烟测验的场景,测验完成后发布到线上,让它每天守时进行主动调度,并进行数据质量监控。以上步骤都完成后,就能把咱们的数据环流到事务系统库,或者用QuickBI、DataV这些东西进行页面展示。
3、咱们规划的使命是离线的,每天会在12点的时分把规划的使命变成一个实例快照。目前咱们的使命依靠在业内也是最先进的。
现在最常见的需求就是每天有日报,每周要写周报,每月要写月报。为了节省资源,就可以运用日报的数据直接转成周报或月报。
0 引 言随着计算机应用的深入,大量数据存储在计算机中,信息的存储、管理、使用和维护显得越来越重要,而传统的数据库管理系统很难满足其要求。为了解决大数据量、异构数据集成以及访问数据的响应速度问题,采用数据仓库技术,为最终用户处理所需的决策信息提供有效方法。
1 数据仓库
数据仓库是为管理人员进行决策提供支持的一种面向主题的、集成的、非易失的并随时间而变化的数据集合。数据仓库是一种作为决策支持系统和联机分析应用数据源的结构化数据环境。
从目前数据仓库的发展来讲,数据可以存放于不同类型的数据库中,数据仓库是将异种数据源在单个站点以统一的模型组织的存储,以支持管理决策。数据仓库技术包括数据清理、数据集成、联机分析处理(OLAP)和数据挖掘(DM)。OLAP是多维查询和分析工具,支持决策者围绕决策主题对数据进行多角度、多层次的分析。OLAP侧重于交互性、快速的响应速度及提供数据的多维视图,而DM则注重自动发现隐藏在数据中的模式和有用信息。OLAP的分析结果可以给DM提供分析信息,作为挖掘的依据;DM可以拓展OLAP分析的深度,可以发现OLAP所不能发现的更为复杂、细致的信息。OLAP是联机分析处理,DM是通过对数据库、数据仓库中的数据进行分析而获得知识的方法和技术,即通过建立模型来发现隐藏在组织机构数据库中的模式和关系。这两者结合起来可满足企业对数据整理和信息提取的要求,帮助企业高层做出决策。在欧美发达国家,以数据仓库为基础的在线分析处理和数据挖掘应用,首先在金融、保险、证券、电信等传统数据密集型行业取得成功。IBM、oracle、Teradata、Microsoft、Netezza和SAS等有实力的公司相继推出了数据仓库解决方案。
近几年开始流行“分布式数据仓库”,是在多个物理位置应用全局逻辑模型。数据被逻辑地分成多个域,但不同位置不会有重复的数据。这种分布式方法可以为不同的物理数据创建安全区域,或为全球不同时区的用户提供全天候的服务。此外,有由Kognitio发起数据仓库托管服务,即DBMS厂商为客户开发和运行数据仓库。这种最初出现在业务部门,业务部门购买托管服务,而不是使用企业内IT部门提供的数据仓库。
2 数据挖掘技术
数据挖掘(DataMining),又称数据库中的知识发现(KnoWledge Discoveryin Database,KDD),是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值并最终可为用户理解的模式过程。它是数据库研究中的很有应用价值的新领域,是人工智能、机器学习、数理统计学和神经元网络等技术在特定的数据仓库领域中的应用。数据挖掘的核心模块技术历经数十年的发展,其中包括数理统计、人工智能、机器学习。从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用的信息和知识的过程。从商业应用角度看,数据挖掘是崭新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键知识。
从技术角度讲,数据挖掘可应用于以下方面:
(1)关联规则发现是在给定的事物集合中发现满足一定条件的关联规则,简单来讲,就是挖掘出隐藏在数据间的相互关系,为业务主题提供指导。
(2)序列模式分析和关联规则发现相似,但其侧重点在于分析数据间的前后关系。模式是按时间有序的。序列模式发现是在与时间有关的事物数据库中发现满足用户给定的最小支持度域值的所有有序序列。
(3)分类分析与聚类分析,分类规则的挖掘实际上是根据分类模型从数据对象中发现共性,并把它们分成不同的类的过程。聚类时间是将d维空间的n个数据对象,划分到k个类中,使得一个类内的数据对象间的相似度高于其他类中数据对象。聚类分析可以发现没有类别标记的一组数据对象的特性,总结出一个类别的特征。
(4)自动趋势预测,数据挖掘能自动在大型数据库里面寻找潜在的预测信息。一个典型的利用数据挖掘进行预测的例子就是目标营销。数据挖掘工具可以根据过去邮件推销中的大量数据找出其中最有可能对将来的邮件推销作出反应的客户。
3 联机分析(OLAP)处理技术
联机分析(OLAP)是数据仓库实现为决策提供支持的重要工具,是共享多维信息,针对特定问题的联机数据访问和分析的快速软件技术。是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来,能够真正为用户所理解,并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术(OLAP委员会的定义)。OLAP的特性包括:①快速性:系统应能在5s内对用户的大部分分析要求做出反应;②可分析性:能处理与应用有关的任何逻辑分析和统计分析;⑨多维性:多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持;④信息性:系统应能及时获得信息,并能管理大容量信息。
OLAP的数据结构是多维,目前存在方式:①超立方结构(Hypercube),指用三维或更多的维数来描述一个对象,每个维彼此垂直。数据的测量值发生在维的交叉点上,数据空间的各部分都有相同的维属性(收缩超立方结构。这种结构的数据密度更大,数据的维数更少,并可加入额外的分析维);②多立方结构(Multicube),即将超立方结构变为子立方结构。面向某特定应用对维分割,它具有强灵活性,提高了数据(特别是稀疏数据)的分析效率。分析方法包括:切片、切块、旋转、钻取等。
OLAP也被称为共享的多维数据的快速分析FASMI,应用在数据密集型行业,如市场和销售分析、电子商务的分析、基于历史数据的营销、预算、财务报告与整合、管理报告、利益率、质量分析等。
4 小 结
采用数据仓库的数据挖掘及联机分析技术实现的决策支持系统,是弥补传统辅助决策系统能力不足的有效途径,具有重要的现实意义。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)