怎么配置sparkstreaming 让他解析kafka中的日志_软件运维

1、KafkaUtils.createDstream构造函数KafkaUtils.createDstream(ssc, [zk], [consumer group id], [per-topic,partitions] ) 使用receivers接收数据利用Kafka高层消费者api于所receivers接收数据保存spark executors通Spark Streaming启job处理些数据默认丢失启用WAL志该志存储HDFS A、创建receiverkafka进行定拉取数据sscrdd区kafkatopic区概念故增加特定主体区数仅仅增加receiver消费topic线程数并增加spark并行处理数据数量 B、于同grouptopic使用receivers创建同DStream C、启用WAL需要设置存储级别即KafkaUtils.createStream(….,StorageLevel.MEMORY_AND_DISK_SER)2.KafkaUtils.createDirectStream区别Receiver接收数据种式定孝简期kafkatopic+partition查询新偏移量再根据偏移量范围每batch面处理数据使用kafka简单消费者api 优点: A、简化并行需要kafka输入流该创建kafka区rdd数且kafka并行读取B、高效种式并需要斗慎衫WALWAL模式需要数据复制两第kafka复制另写wal C、恰语义(Exactly-once-semantics)传统读取kafka数据通kafka高层api偏移量空腔写入zookeeper存数据丢失能性zookeeperssc偏移量致EOS通实现kafka低层api偏移量仅仅ssc保存checkpoint消除zkssc偏移量致问题缺点使用基于zookeeperkafka监控工具怎么配置sparkstreaming 让他解析kafka中的日志

在工程型咐森中引用 spark-streaming-kafka-0-10_2.11 来使用它。通过包中提供的 KafkaUtils 可以在 StreamingContext 和 JavaStreamingContext 中对Kafka消息创建 DStream 。

由于 KafkaUtils 可以订阅多个topic，因此卜亩创建的DStream由成对的topic和消息组成。具体 *** 简老作如下：

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/yw/12496090.html

怎么配置sparkstreaming 让他解析kafka中的日志

发表评论

评论列表（0条）