Hadoop生态系统-新手快速入门(含HDFS、HBase系统架构)

Hadoop生态系统-新手快速入门(含HDFS、HBase系统架构),第1张

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

广义的Hadoop,一般称为Hadoop生态系统,如下所示。

Hadoop生态系统中这些软件的作用:

HDFS 采用了主从(Master/Slave)结构模型,一个HDFS集群包括一个名称节点(NameNode)和若干个数据节点(DataNode)。

HDFS采用Java语言开发,因此任何支持JVM的机器都可以部署名称节点和数据节点。

在配置好Hadoop 集群之后,可以通过浏览器访问 http://[NameNodeIP]:9870,查询HDFS文件系统。通过该Web界面,可以查看当前文件系统中各个节点的分布信息。

HBase系统架构如下所示,包括客户端、Zookeeper服务器、Master主服务器、Region服务器。一般而言,HBase会采用HDFS作为底层数据存储。

在HBase服务器集群中,包含了一个Master和多个Region服务器,Master是HBase集群的“总管”,它必须知道Region服务器的状态。

HBase中可以启动多个Master,但是Zookeeper 可以帮助选举出一个Master 作为集群的总管,并保证在任何时刻总有唯一一个Master在运行,这样可以避免Master单点失效的问题。

Region服务器是HBase中最核心的模块,负责维护分配给自己的Region,并响应用户的读写请求。

Store是Region服务器的核心。每个Store对应了表中的一个列族的存储。每一个Store包含了一个MemStore缓存和若干个StoreFile文件。

HBase采用HLog来保证系统发生故障时,能够恢复到正确的状态。HLog是磁盘上面的记录文件,它记录着所有的更新 *** 作。

HBase系统为每个Region服务器配置了一个HLog文件,它是一种预写式日志(Write Ahead Log),也就是说,用户更新数据必须首先被记入日志后,才能写入MemStore缓存。

此外,Pig和Hive还为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变的非常简单。 Sqoop则为HBase提供了方便的RDBMS数据导入功能,使得传统数据库数据向HBase中迁移变的非常方便。

注意:Hadoop 安装完成之后,只包含HDFS和MapReduce,并不含HBase,因此需要在Hadoop 之上继续安装HBase。

当前数据库生态可以大致分类三类:

一是传统商业数据库,以 Oracle 为代表,其在 40 余年时间里所创造的数据库帝国已拥有了极其完善的生态;

二是开源数据库,以 MySQL、PostgreSQL 为代表,遍布全球的社区组织形成了强大的生态系统,也形成了若干分支,成就了诸多商业数据库产品;

第三则是国内新兴数据库,以 TiDB、OceanBase、PolarDB 等为代表,具备较强的自研能力,但在生态方面较前两类薄弱很多。如何快速建立并形成符合自身利益的生态呢?开源无疑是一个绝佳的选择。

根据中央财政科技计划(专项、基金等)管理改革的总体要求,科技部、财政部按照需求导向和分类整合的原则,在原“科技基础性工作专项”基础上,重新整合设立“科技基础资源调查”专项。现将2016年度项目重要支持方向予以公布,请根据要求组织项目申报工作,有关事项通知如下。

一、项目申报总体要求

科技基础资源调查,是指面向科学目标和国家战略需求开展的对自然本底数据和材料的获取、对已有数据和材料的整理与编研等科技基础性工作,具有基础性、公益性、系统性等特征;主要目标是产出权威系统的科学数据、调查报告、科技资料、图集图件等基础性成果,并实现开放共享,以推进基础学科发展、支撑科技创新活动、支撑国家宏观决策等;重点支持内容聚焦于典型、重点和特色主题,查漏补缺,区别于行业业务工作。

申报单位根据重要支持方向的内容以项目形式组织申报,根据工作任务需要设立课题。项目申报书应涵盖重要支持方向的全部研究内容,并提出明确、可考核的指标。

原则上每个重要支持方向立项支持1个项目;这批项目拟安排专项经费总额约2.5亿元,今年预算安排5000万元。请申报单位根据实际需要,科学提出申报项目经费预算。

项目申报单位推荐本单位1名科研人员作为项目负责人,每个课题设1名课题负责人,项目负责人须作为课题负责人之一。项目执行期一般为3~5年,可根据实际需要确定执行年限。

为确保项目实施获取科学数据和资料的系统性和权威性,申报单位应具有较好的工作基础和相关条件,并组织相对优势的单位联合申报。

为更好地向科技界提供公共服务,项目组织时应注意加强与国家主体科技计划、国家重点实验室建设、科技基础条件平台建设等的衔接,具有详细明确的数据、资料汇交和共享计划,项目完成后所有数据要按照有关要求实行开放共享。

项目申报书应按格式要求填写完整,并通过国家科技管理信息系统提交。项目申报单位与所有参与单位签署联合申报协议,并签署项目申报单位及项目负责人诚信承诺书。

所有申报项目须经上级主管部门审核并推荐后统一报送,不受理个人申报。各推荐部门应加强对所推荐的项目申报单位及其合作方资质、科研能力的审核把关,按时将推荐项目通过国家科技管理信息系统进行提交。

二、申报资质要求

1. 申报单位必须是中国大陆境内注册的中央级科研院所和高等院校,具有独立法人资格,有较强的科研能力和条件,运行管理规范。政府机关不得作为申报单位进行申报。申报项目须通过申报单位上级主管部门推荐,同一申报项目不得多头申报和重复申报。

2. 项目(含课题)负责人须为具有副高级职称以上的科研人员,项目(含课题)负责人申报当年不超过60周岁(1956年1月1日以后出生),工作时间每年不得少于6个月。项目(含课题)负责人具有较高的学术水平和开拓创新意识,具有较强的组织协调能力,能将主要时间和精力用于本项目的研究和管理。

3. 项目(课题)负责人限申报一个项目,国家重点基础研究发展计划(973计划,含重大科学研究计划)、国家高技术研究发展计划(863计划)、国家科技支撑计划、国家国际科技合作专项、国家重大科学仪器设备开发专项、公益性行业科研专项、科技基础性工作专项(以下简称“改革前计划”)以及国家科技重大专项、国家重点研发计划重点专项的在研项目(含任务或课题)负责人不得牵头申报本专项项目(课题);项目参加人员的申报项目和改革前计划、国家科技重大专项、国家重点研发计划重点专项在研项目总数不得超过2个;改革前计划、国家科技重大专项、国家重点研发计划重点专项在研项目(含任务或课题)负责人不得因申报本专项项目(课题)而退出目前承担的项目(含任务或课题)。计划任务书执行期到2016年12月底之前的在研项目不在查重范围内。

4. 受聘于内地单位的外籍科学家及港、澳、台地区科学家可作为项目(含课题)负责人,全职受聘人员须由内地聘用单位提供全职聘用的有效证明,非全职受聘人员须由内地聘用单位和境外单位同时提供聘用的有效证明,并随纸质项目申报书一并报送。

5. 以下人员或单位不能参与申报项目:(1)参与本年度指南评议及指南编制的专家;(2)中央和地方各级政府的公务人员(包括行使科技计划管理职能的其他人员);(3) 在承担(或申请)国家科技计划项目中,有严重不良信用记录或被记入“黑名单”的单位或个人。

申报单位在正式提交项目申报书前可利用国家科技管理信息系统公共服务平台查询相关参与人员承担改革前计划、国家科技重大专项在研项目(含任务或课题)和国家重点研发计划重点专项在研项目(含任务或课题)情况,避免重复申报。

三、形式审查和评审流程

1. 本专项委托国家科技基础条件平台中心作为第三方机构开展项目过程管理。

2. 项目申报截止后,国家科技基础条件平台中心按照本通知要求开展形式审查和评审工作。

3.项目评审一般包括预审和复审环节;如项目申报数量不超过拟支持项目数的3倍,直接进行复审。预审不需要项目负责人答辩,复审采取会议答辩评审方式。形式审查以及每轮评审结果等由国家科技基础条件平台中心及时反馈项目申报单位和负责人。

4. 国家科技基础条件平台中心根据专家评议情况择优建议立项。

四、具体申报方式

1. 网上填报。请各申报单位按要求通过国家科技管理信息系统公共服务平台进行网上填报,网上填报的申报书将作为后续形式审查、项目评审立项的依据。申报书格式在国家科技管理信息系统公共服务平台相关专栏下载。申报单位网上填报申报书时间为:2016年8月20日8:00至9月14日17:00。

国家科技管理信息系统公共服务平台: http://service.most.gov.cn;

技术咨询电话:010—88659000(中继线);

技术咨询邮箱:program@most.cn。

2. 材料报送。请各推荐部门于2016年9月17日前(以寄出时间为准),将加推荐部门公章的推荐函及推荐项目清单(纸质,一式2份)以及加盖申报单位公章的申报书(纸质,一式4份),寄送国家科技基础条件平台中心。申报书(含预算书)、推荐项目清单须通过系统直接生成打印。

3. 受理单位和咨询。国家科技基础条件平台中心负责受理申请和咨询。

联系人:王超 石蕾(形式审查负责人)

电 话:010-58881115,58881116

传 真:010-58881116

材料寄送地址:北京市海淀区复兴路乙15号 邮编:100862 国家科技基础条件平台中心

科 技 部

2016年7月25日

国家科技基础资源调查专项2016年度项目重要支持方向

一、中国西南地区极小种群野生植物调查与种质保存

1. 工作内容:系统调查云南、贵州、四川、重庆、广西西部及藏东南地区极小种群野生植物的地理分布范围、种群大小(包括资源量)与种群结构、生境特征、人为干扰程度、主要植被和土壤类型等,并采集相应科学数据;在不影响植株生长发育或破坏种群及其生境的前提下,系统采集相应的植物种质(种子、DNA、组织培养物等)并保存在种质资源库,同时在植物园或树木园开展人工繁殖基础上的活体保存。

2. 考核目标:(1)形成一套系统完整的我国西南极小种群野生植物的本底资料(包括地理分布范围、种群大小与种群结构、资源量、生境特征、人为干扰程度、主要植被和土壤类型等),建立资源信息库并提交国家科技基础条件平台共享;(2)收集至少100种西南地区极小种群野生植物的种质资源和基础数据,提交国家种质资源库保存。

二、中国荒漠主要植物群落调查

1. 工作内容:建立我国荒漠植物群落调查技术规范和方法体系,系统开展我国主要荒漠植物群落类型、种类组成、群落学特性、空间分布及利用现状的综合调查,采集荒漠植物的DNA条形码,初步查清我国荒漠植被资源现状,构建我国荒漠植物群落的数据库,编制荒漠群植物落类型分布图集,为我国荒漠治理和生物资源保护与可持续性利用提供依据。

2. 考核目标:(1)调查荒漠植物样本8000份,采集荒漠植物群落样方及其生境数据至少5万份并提交国家科技基础条件平台共享;(2)采集荒漠植物DNA条形码至少2000份;(3)编写中国荒漠群落类型、特征与现状调查报告;(4)编制中国荒漠植物群落各类型分布图;(5)构建中国荒漠植物群落数据库。

三、中国湖泊微生物多样性及资源调查

1. 工作内容:系统调查我国典型区域(青藏高原、云贵高原、西北干旱区、东北平原与山地湖区、东部平原)湖泊湿地的微生物资源,分析湖泊微生物的群落结构分布规律;建立我国湖泊微生物物种、基因资源库和信息数据库。形成耐低温、盐碱、污染和抗辐射的微生物及其功能基因资源储备。

2. 考核目标:(1)获得我国五个湖泊分布区各50个以上代表性湖泊样品1000份,完成基于非培养技术的物种多样性分析;获得各类微生物10000株以上;(2)完成10000株菌的初步鉴定,确定不少于500株微生物的分类地位及其抗逆特征数据;(3)完成不少于20个代表性湖泊的微生物宏基因组测序,获得至少100000条基因序列及其抗逆基因注释;(4)建立我国湖泊微生物物种资源库和基因、尤其抗逆基因资源库及其信息数据库。

四、京津冀地区地下水饮用水源地基础环境状况调查

1. 工作内容:开展地下水饮用水源地和地下水饮用水源保护区基础环境状况调查方法研究;全面开展京津冀地区地下水饮用水源地的水文地质、补-径-排特征、水质和污染源的调查与监测;建立京津冀地下水饮用水源地基础环境状况数据库;开展京津冀地区地下水饮用水源地和地下水饮用水源保护区基础环境状况评价,明确污染成因或风险,分类提出地下水水源地保护对策。

2. 考核目标:(1)发布地下水饮用水源地基础环境状况调查技术导则;(2)调查对象涵盖京津冀地区85%以上的水源地,水质和水量现状调查不少于2个完整水文年;(3)建立京津冀地下水饮用水源地基础环境质量数据库;(4)分类提出地下水水源地保护对策,并向有关部委和地方政府提交咨询报告。

五、中国积雪特性及分布调查

1. 工作内容:在地面观测、区域和样带调查的基础上,并充分利用国家相关观测站的积雪观测资料,建立积雪特性野外调查观测规范,对中国典型积雪区(东北、青藏高原、不同高山地区)不同时期的积雪进行现场调查和监测,编制中国积雪特性综合数据库;以多源数据为基础,对中国的积雪进行遥感反演,典型区现场考察、观测和验证,查明不同积雪区、不同时间积雪特征,开展中国积雪类型划分,给出1980年以来中国积雪特征和分布动态过程和变化的系列数据库。

2. 考核目标:(1)完成中国典型积雪区标准积雪剖面特征及测量规范建设,规范不同类型积雪的测量方法;给出新的中国积雪类型图;(2)建立1980年以来我国积雪逐日的时空变化(动态)序列数据库(比例尺大于1:100万),形成一套完整的我国积雪空间分布及变化的数据;(3)建立中国主要典型积雪区(青藏高原不同气候带、各大山区及东北的调查区)及主要流域不同积雪时间积雪特征综合数据库,包含不同时期积雪分层、密度、雪深、雪水当量乃至积雪化学成分等信息。

六、中国南方草地牧草资源调查

1. 工作内容:建立我国南方草地牧草资源调查技术规范和方法体系;系统调查我国秦岭、淮河以南和青藏高原以东的南方草地牧草种类及其生境特征和利用现状,明确优势种群,采集测定牧草营养成分、植物学关键性状等信息,并收集牧草种质(标本、种子与活体)保存到种质资源库(圃);初步明确生产中应用的牧草品种及种植规模。构建南方草地牧草资源数据库和信息共享平台,为我国南方草地资源的保护、改良和可持续利用提供科学依据。

2. 考核指标:(1) 调查南方牧草样本5000份,采集数据50000个以上;(2)收集主要牧草种质资源5000份,并入库(圃)保存;(3)编写南方牧草品种推广利用现状调查报告;(4)编写我国南方草地牧草资源调查报告;(5) 编撰出版《中国南方牧草志》;(6)构建南方草地牧草资源数据库。

七、红树林生物资源调查与重要种类DNA条形码库构建

1. 工作内容:在我国红树林主要分布区—海南、广东、广西、福建和浙江开展红树、半红树种类组成、分布范围和数量进行系统调查,查清我国不同区域、不同类型的红树林生态系统中的动植物组成和生态特征;与历史资料进行对比,查清我国红树林的种类、数量、分布范围的长期变化以及导致这些变化的原因;建立我国红树林生态系统数据库。

2. 考核目标:(1)绘制我国红树林分布图、我国现有的27种红树植物和10种半红树植物的数量详细分布图;对我国海南、广东、广西、福建和浙江的红树林种类组成与生态系统特征进行系统描述;(2)建立我国主要27种红树植物和10种半红树植物样品库和DNA条形码数据库;建立红树林生态系统中的重要植物、动物样品库和DNA条形码数据库,种类不少于300种。

八、南海及其附属岛礁海洋科学考察历史资料系统整编

1. 工作内容:对我国在南海开展的历次海洋调查和岛礁调查所获取的生物、物理、环境等基础数据资料进行系统收集、整理和电子化处理,建设综合数据库,整理出版相关数据资料。

2. 考核目标:(1)完成对我国50年代以来在南海开展的历次大规模海洋考察和岛礁调查所获取资料的收集和整理,形成生物、物理、地质、化学综合数据集与资料集,建成电子数据库;(2)形成系统的南海地质环境、物理环境、化学环境和生物多样性与生物资源系列图件和综合报告。

九、西太平洋典型海山生态系统科学调查

1. 工作内容:对西太平洋1-2个典型海山系统进行探测和调查,获取海山区水文、化学、生物和底质等生态系统主要参数数据和相关生物、地质样品;形成相应的数据集和样品库;绘制海山区精细地形地貌图和生源要素分布格局图;查清典型海山及其邻近区域底质环境、水体环境以及生物多样性特点。

2. 考核目标:(1)形成海山地形图(1:50万),海山及周边海域生态系统主要参数(温度、盐度、海流、营养盐、DO、TOC\TIC、初级生产力、微生物生产力、浮游生物物种组成与生物量、底栖生物物种组成与生物量等)数据集和分布图;(2)建立海山区生物标本库(大型生物标本500个以上)及微生物资源样品库(1000以上株),提交相应的DNA条形码数据库(3000条以上)。

十、中国南北过渡带综合科学考察

1. 工作内容:系统调查中国南北过渡带秦巴山地土壤、植被等地理地带性指示因子的水平分异和垂直梯度变化,获取相关样品并分析,形成相应的数据集;获取控制地理要素多维变化的高时空分辨率的气温、降水等气候要素数据,精确提取决定地带性变化的关键生物气候指标;查清秦巴山地地形、地貌、交通、水系等要素、土地覆被等地理本底数据以及森林、矿产、耕地、旅游等主要资源的空间分布格局。

2. 考核目标:(1)完成3条南北穿越、4条垂直梯度的土壤-植被综合剖面图,建立体现秦巴山地南北过渡的植被属性(常绿阔叶树与落叶阔叶树的数量及比例,优势种的组成结构、树高及胸径)和土壤属性(有机质含量、pH值、C/N、盐基饱和度、粘粒阳离子交换量、粘粒硅铝率)空间变化的标准序列和重点区的精细垂直变化序列;(2)形成60年来全区高空间分辨率(约200m)气候数据集,并绘制日均温≥10℃天数、温暖指数、最暖月均温等关键地带性指标精准的空间分布图;(3)形成全区地形等要素、土地覆被、耕地、矿产旅游等资源,以及各类保护地和历史古迹的空间分布图(全区1:100万,重点地区1:5万)。

十一、中国沙漠变迁的地质记录和人类活动遗址调查

1. 工作内容:(1)收集整理我国北方沙漠地区古环境研究资料,对我国北方沙漠地区沉积地层进行详细调查,获取一定数量的典型剖面,并量化其存在时代,同时结合区域水文、地貌和气候资料,查清近1万年以来,我国北方沙漠边界变迁历史;(2)收集整理我国干旱区现有人类活动遗迹资料,对这些资料进行数字化处理,同时对我国北方沙漠及周边地区人类活动遗迹及其生活环境进行深入调查,确定其年代,形成我国沙漠地区人类活动时空分布图。

2. 考核目标:(1)建立中国沙漠分布现状数字地图集(1:20万);(2)收集整理我国北方沙漠地区典型剖面地层资料,通过野外调查获取50-100个新的典型沉积剖面,建立中国沙漠全新世演化数据库,形成千年尺度上的沙漠边界变迁图(1:100万);(3)建立中国干旱区人类活动遗迹的时空数据库(500条以上)。

十二、我国儿童营养与健康科学调查

1. 工作内容:在我国华东、华北、华中、华南、西南、西北和东北等区域各选择4个儿童营养与健康状况科学调查点,涵盖城市和农村、经济发达和欠发达区/县。通过问卷调查、健康体检、实验室检查和膳食调查等方式,采集不同年龄段儿童的营养、发育和健康状况等基础数据。对儿童及其家长的营养与健康知识及生活饮食习惯进行调查。建立儿童营养与健康状况科学调查基础数据库,制作儿童营养与健康科学调查图集。

2. 考核目标:(1)建立28个儿童营养与健康状况科学调查点,城市和农村地区各14个。(2)获得10万以上儿童的营养、发育和健康状况的基础数据。(3)制作出28个儿童营养与健康状况科学调查点的系列数据集。(4)编制7个区域的儿童营养与健康状况科学调查可视化图集。(5)提出改善和提高我国儿童营养与健康状况的应对策略。

十三、我国区域人群气象敏感性疾病科学调查

1. 工作内容:根据中国气象地理区划,在西北、华北、内蒙、东北、黄淮、江淮、江南、江汉、华南、西南和西藏11个地区,各选择常住人口在30万以上、具有较好医学大数据存量和医疗信息化基础的1个城区和1个县,建立人群气象敏感性疾病科学调查基地。采集气象敏感性疾病基础数据。对原始数据进行整理和加工,制作气象敏感性疾病数据集。建立气象敏感性疾病预测、预警模型,开展气象敏感性疾病人群干预研究与服务。

2. 考核指标:(1)建立起22个区(县)级气象敏感性疾病科学调查基地。(2)采集近三年500万人次以上人群连续疾病诊疗基础数据,涵盖至少20种以上气象敏感性疾病。(3)制作出22套气象敏感性疾病数据集。(4)建立20种以上常见气象敏感性疾病的预测、预警模型。(5)在22个区(县)开展气象敏感性疾病预测、预警服务,并在10个以上区(县)开展气象敏感性疾病人群干预服务。

十四、中蒙俄国际经济走廊多学科联合考察

1. 工作内容:中、俄、蒙三国科学家联合开展中蒙俄国际经济走廊(跨中国东北及华北沿边境地区、蒙古国、俄罗斯东西伯利亚和远东南部)跨境地带和重点区域战略性资源分布格局、潜力考察;进行全区土地、水文、气候、地貌、植被等地理环境本底调查;查清重点区域社会经济、城镇化、基础设施和投资环境现状、潜力及发展重点;编制国际多学科联合科学考察标准规范系统,建立本区域资源环境数据库与跨国共享信息网络平台。

2. 考核目标:(1)获取考察区土地、水系、气候、地貌、植被等地理环境本底数据;查清油气、有色金属、耕地、森林、淡水、旅游等资源储量、分布和潜力;获取考察重点区域近10年GDP、产业结构、投资、财政、贸易、人口、城镇、交通和能源及投资环境数据、资料;(2)编制国际区域多学科联合科学考察系列标准规范,建立中蒙俄国际经济走廊跨国数据信息网络平台和资源环境集成数据库;(3)制作全区域及重点区1:50万-1:100万基础地理环境、土地覆被、油气、主要有色金属资源及社会经济、城镇化和交通等地图集4部(电子版);(4)编写考察区多学科联合科学考察报告5部,向国家相关部委提交3-5份咨询报告。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9955302.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-03
下一篇 2023-05-03

发表评论

登录后才能评论

评论列表(0条)

保存