- Fusioninsight是华为企业级大数据存储,查询,分析的统一平台,能够帮助企业快速构建海量数据信息处理系统,通过对海量信息数据实时与非实时的分析挖掘,发现全新价值点和企业商机。对
析:link - Fusioninsight Tool是为技术支持工程师和维护工程师提供的一套健康检查工具,能够检查集群相关节点,服务的健康状态中潜在的问题,并生成健康检查报告。方便技术支持工程和维护工程师快速了解系统的健康状况。对
- Kata是一个高吞吐.分布式,基于发布订阅的消息系统,利用kafka技术可在廉价FCServer 上搭建起大规模消息系统。对
析:link - flink是一个批处理和流处理结合的统一计算框架,其核心是一个数据分发以及并行计算的流数据处理引擎。对
析:link - Spark Streaming 计算基于DStream将流式计算分解成一系列短小的批处理作业。错
析:Spark Streaming 是基于spark的流式批处理引擎,将流式计算分解成一系列短小的批处理作业。 - 导入数据到Hive表时不会检查数据合法性,只会在读取数据时候检查。对
- topology的处理逻辑都在Bolt 中。对
析: 这个不确定,找到的原话是拓扑中所有处理逻辑都在bolt(螺栓)中完成,因为不太了解,所以不确定完成和在是不是可以理解一样 - Flume 的propertles. protertlses配置文件中可以配置多个channel来传输数据。对
- 驱动型source是flume周期性主动去获取数据。错
析:驱动型source:是外部主动发送数据给Flume,驱动Flume接受数据。 轮询source:是Flume周期性主动去获取数据。 - Hbase 的数据文件File 中一个Keyvalue 格式包含Key, value,Timestamp, Keytype等内容。对
析:KeyValue对使用者而言是一个六元组,即(rowkey, family, qualifier, timestamp, type, value)。在1.x版本之后,添加了tags支持,变成了7元组,即(rowkey, family, qualifier, timestamp, type, value, tags)。但其设计思想是没有变的,即key-value的方式进行存储,从业务逻辑上看,key就是rowkey;value除了值本身,还包含了value的一些描述信息,即family、qualifier、timestamp和type。 - Kafka Logs segment 文件命名规则全局的第一个segment 从0开始,后续每个segment文件名为上一个全局partiondeofffset(偏移message 数)。错
析:segment文件命名规则:partition全局的第一个segment从0开始,后续每个segment文件名为上一个segment文件最后一条消息的offset值。数值最大为64位long大小,19位数字字符长度,没有数字用0填充。 - Hive 中“ Group by”指的是通过一定的规则将每一个数据集划分成若干个小的数据集,然后针对若干个小的数据集进行数据分组处理。对
- Hbase的最小存储单元是Region。对
- 为减少写入磁盘的数据量, mapreduce支持对MOF( mapoutfile)进行压缩后再写入。对
- Resourcemanager采用高可用方案,当Active resourcemanager发现故障时,只能通过内置的zookeeper 来启动standby的resourcemanager,将其状态切换为active。对
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)