【头歌实训】kafka-入门篇

这篇具有很好参考价值的文章主要介绍了【头歌实训】kafka-入门篇。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

第1关:kafka - 初体验

任务描述

本关任务:使用 Kafka 命令创建一个副本数量为1、分区数量为3的 Topic 。

相关知识

为了完成本关任务,你需要掌握:1.如何使用 Kafka 的常用命令。

课程视频《Kafka简介》

Kafka 简述

类 JMS 消息队列,结合 JMS 中的两种模式,可以有多个消费者主动拉取数据,在 JMS 中只有点对点模式才有消费者主动拉取数据。

Kafka 是一个生产-消费模型。

Producer :消息生产者,就是向 Kafka Broker 发消息的客户端。

Consumer :消息消费者,向 Kafka Broker 取消息的客户端。

Topic :我们可以理解为一个队列。

Consumer Group (CG):这是 Kafka 用来实现一个 Topic 消息的广播(发给所有的 Consumer )和单播(发给任意一个 Consumer )的手段。一个 Topic 可以有多个CG。Topic 的消息会复制(不是真的复制,是概念上的)到所有的 CG ,但每个 Partion 只会把消息发给该 CG 中的一个 Consumer 。如果需要实现广播,只要每个 Consumer 有一个独立的 CG 就可以了。要实现单播只要所有的 Consumer 在同一个 CG。用CG 还可以将 Consumer 进行自由的分组而不需要多次发送消息到不同的 Topic。

Broker :一台 Kafka 服务器就是一个 Broker 。一个集群由多个Broker组成。一个 Broker 可以容纳多个 Topic。

Partition :为了实现扩展性,一个非常大的 Topic 可以分布到多个Broker(即服务器)上,一个 Topic 可以分为多个 Partition ,每个 Partition 是一个有序的队列。Partition 中的每条消息都会被分配一个有序的 Id( Offset )。Kafka 只保证按一个 Partition 中的顺序将消息发给 Consumer ,不保证一个 Topic 的整体(多个 Partition间)的顺序。

Offset :Kafka 的存储文件都是按照 Offset . index 来命名,用Offset 做名字的好处是方便查找。例如你想找位于2049的位置,只要找到 2048 . index 的文件即可。当然 the first offset 就是 00000000000 . index。

Kafka 应用场景

  • 日志收集:一个公司可以用 Kafka 可以收集各种服务的 Log ,通过Kafka 以统一接口服务的方式开放给各种 Consumer ,例如 Hadoop 、Hbase 、Solr 等。
  • 消息系统:解耦和生产者和消费者、缓存消息等。
  • 用户活动跟踪:Kafka 经常被用来记录 Web 用户或者 App 用户的各种活动,如浏览网页、搜索、点击等活动,这些活动信息被各个服务器发布到 Kafka 的Topic 中,然后订阅者通过订阅这些 Topic 来做实时的监控分析,或者装载到 Hadoop 、数据仓库中做离线分析和挖掘。
  • 运营指标:Kafka 也经常用来记录运营监控数据。包括收集各种分布式应用的数据,生产各种操作的集中反馈,比如报警和报告。
  • 流式处理:比如 Spark streaming 和 Storm、Flink。
  • 事件源。

Kafka 架构组件

Kafka 中发布订阅的对象是 Topic。我们可以为每类数据创建一个 Topic ,把向 Topic 发布消息的客户端称作 Producer ,从 Topic 订阅消息的客户端称作 Consumer 。Producers 和 Consumers 可以同时从多个 Topic 读写数据。一个 Kafka 集群由一个或多个 Broker 服务器组成,它负责持久化和备份具体的 Kafka 消息。

【头歌实训】kafka-入门篇,【头歌实训】,kafka,linq,分布式,头歌实训

kafka 常用命令

  • 查看当前服务器中的所有 Topic bin/kafka-topics.sh --list --zookeeper zk01:2181
  • 创建 Topic ./kafka-topics.sh --create --zookeeper zk01:2181 --replication-factor 1 --partitions 3 --topic first

说明:replication-factor 是指副本数量,partitions 是指分区数量

  • 删除 Topic bin/kafka-topics.sh --delete --zookeeper zk01:2181 --topic test 需要 server.properties 中设置 delete.topic.enable = true 否则只是标记删除或者直接重启。
  • 通过 Shell 命令发送消息 kafka-console-producer.sh --broker-list kafka01:9092 --topic demo
  • 通过 Shell 消费消息 bin/kafka-console-consumer.sh --zookeeper zk01:2181 --from-beginning --topic test1
  • 查看消费位置 kafka-run-class.sh kafka.tools.ConsumerOffsetChecker --zookeeper zk01:2181 --group testGroup
  • 查看某个 Topic 的详情 kafka-topics.sh --topic test --describe --zookeeper zk01:2181

说明 :此处的 zk01 是 Zookeeper 的 IP 地址, kafka01 是 Broker 的 IP 地址

编程要求

根据提示,在右侧编辑器补充代码完成以下任务。

  • 创建一个副本数量为1、分区数量为3、名为 demo 的 Topic
  • 查看所有 Topic
  • 查看名为 demo 的 Topic 的详情信息

注意:Broker 的 IP 为127.0.0.1,Zookeeper 的 IP 为127.0.0.1

扩展任务:

  • 使用一个命令行开启 Kafka Producer Shell 窗口并对名为 demo 的 Topic 进行数据生产
  • 使用另一个命令行开启 Kafka Customer Shell 窗口并对名为 demo 的 Topic进行消费

说明:扩展任务没有进行评测,此任务目的是为了让用户体验下 Kafka 的数据生产与数据消费的两个环节,更好理解 Kafka

测试说明

平台会对你的命令进行检验并运行,你只需要按照任务需求,补充右侧编辑器的代码,然后点击评测就ok了。 - -

特别注意:为了确保运行拥有一个正常的运行环境,请在评测之前,重置下运行环境

【头歌实训】kafka-入门篇,【头歌实训】,kafka,linq,分布式,头歌实训

答案代码

命令行代码

kafka-server-start.sh  /opt/kafka_2.11-1.1.0/config/server.properties

shell 文件

#!/bin/bash
 
#1.创建一个副本数量为1、分区数量为3、名为 demo 的 Topic
kafka-topics.sh --create --zookeeper 127.0.0.1:2181 --replication-factor 1 --partitions 3 --topic demo
 
#2.查看所有Topic
kafka-topics.sh --list --zookeeper  127.0.0.1:2181
 
#3.查看名为demo的Topic的详情信息
kafka-topics.sh --topic demo --describe --zookeeper 127.0.0.1:2181
 

第2关:生产者 (Producer ) - 简单模式

任务描述

本关任务:编写一个 Kafka 的 Producer 进行数据生产。

相关知识

为了完成本关任务,你需要掌握:1.如何使用 Kafka 的 Producer API 进行数据生产。

课程视频《使用Python生产消费kafka的数据》

Producer 简单模式

Producer 采用默认分区方式将消息散列的发送到各个分区当中。

Producer 的开发步骤

  1. 创建配置文件对象 Properties props = new Properties();

  2. 设置连接 Kakfa 的基本参数,如下:

    props.put("bootstrap.servers", "kafka-01:9092,kafka-02:9092,kafka-03:9092");
    props.put("acks", "1");
    props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
    props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");
    
  3. 创建 Kafka 生产者对象Producer<String, String> producer = new KafkaProducer<>(props);

  4. 发送消息producer.send(new ProducerRecord<String, String>("Topic", "key", "value"));

Kafka 常用配置参数

名称 说明 默认值 有效值 重要性
bootstrap.servers kafka集群的broker-list,如: hadoop01:9092,hadoop02:9092 必选
key.serializer key的序列化器 ByteArraySerializer StringSerializer 必选
value.serializer value的序列化器 ByteArraySerializer StringSerializer 必选
acks 确保生产者可靠性设置,有三个选项: acks=0:不等待成功返回 acks=1:等Leader写成功返回 acks=all:等Leader和所有ISR中的Follower写成功返回,all也可以用-1代替 -1 0,1,-1,all 建议必选
buffer.memory Producer总体内存大小 33554432 不要超过物理内存,根据实际情况调整 建议必选
batch.size 每个partition的未发送消息大小 16384 根据实际情况调整 建议必选

编程要求

根据提示,在右侧编辑器补充代码,使用 Kafka Producer API 对名为 demo 的 Topic 进行数据生产。

测试说明

平台会对你的命令进行检验并运行,你只需要按照任务需求,补充右侧编辑器的代码,然后点击评测就ok了。 - -

答案代码

conf/server.properties ,如果用 config/server.properties 的话需要把 log.dirsnum.partitions 这两个配置改了

cd $KAFKA_HOME/
vim config/server.properties

# 使用 :/log.dirs 找到位置,或者直接 :$ 在最后一行加 
log.dirs=/export/servers/logs/kafka/
num.partitions=2

命令行执行代码

# kafka 依赖 zookeeper,所以需要先启动 zookeeper 服务
cd $ZOOKEEPER_HOME/
bin/zkServer.sh start conf/zoo.cfg
# 启动 Kafka 服务
cd $KAFKA_HOME/
bin/kafka-server-start.sh -daemon conf/server.properties

Java 代码文章来源地址https://www.toymoban.com/news/detail-770146.html

package net.educoder;
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.Producer;
import org.apache.kafka.clients.producer.ProducerRecord;
import java.util.Properties;
/**
 * kafka producer 简单模式
 */
public class App {
    public static void main(String[] args) {
        /**
         * 1.创建配置文件对象,一般采用 Properties
         */
        /**----------------begin-----------------------*/
        Properties props = new Properties();
        /**-----------------end-------------------------*/
        /**
         * 2.设置kafka的一些参数
         *          bootstrap.servers --> kafka的连接地址 127.0.0.1:9092
         *          key、value的序列化类 -->org.apache.kafka.common.serialization.StringSerializer
         *          acks:1,-1,0
         */
        /**-----------------begin-----------------------*/
        props.put("bootstrap.servers", "127.0.0.1:9092");
        props.put("acks", "1");
        props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        /**-----------------end-------------------------*/
        /**
         * 3.构建kafkaProducer对象
         */
        /**-----------------begin-----------------------*/
        Producer<String, String> producer = new KafkaProducer<>(props);
        /**-----------------end-------------------------*/
        for (int i = 0; i < 100; i++) {
            ProducerRecord<String, String> record = new ProducerRecord<>("demo", i + "", i + "");
            /**
             * 4.发送消息
             */
            /**-----------------begin-----------------------*/
            producer.send(record);
            /**-----------------end-------------------------*/
        }
        producer.close();
    }
}


第3关:消费者( Consumer)- 自动提交偏移量

任务描述

本关任务:编写一个 Kafka 消费者并设置自动提交偏移量进行数据消费。

相关知识

为了完成本关任务,你需要掌握:1.如何编写 Kafka 消费者,2.如何使用自动提交偏移量。

Kafka 消费者开发步骤

  1. 创建配置文件对象 Properties props = new Properties();

  2. 设置连接 Kakfa 的基本参数,如下:

    //设置kafka集群的地址
    props.put("bootstrap.servers", 127.0.0.1:9092");
    //设置消费者组,组名字自定义,组名字相同的消费者在一个组
    props.put("group.id", "g1");
    //开启offset自动提交
    props.put("enable.auto.commit", "true");
    //自动提交时间间隔
    props.put("auto.commit.interval.ms", "1000");
    //序列化器
    props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
    props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
    
  3. 创建 Kafka 消费者对象 KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);

  4. 订阅主题 Topic consumer.subscribe(Arrays.asList("demo"));

  5. 消费 Topic 的数据

    while (true) {
         ConsumerRecords<String, String> records = consumer.poll(100);
         for (ConsumerRecord<String, String> record : records)
             System.out.printf("offset = %d, key = %s, value = %s%n", record.offset(), record.key(), record.value());
     }
    

自动提交偏移量的优劣

消费者拉取数据之后自动提交偏移量,不关心后续对消息的处理是否正确。

  • 优点:消费快,适用于数据一致性弱的业务场景
  • 缺点:消息很容易丢失

编程要求

使用 Kafka Consumer API 对名为 demoTopic 进行消费,并设置自动提交偏移量。

测试说明

平台会对你的命令进行检验并运行,你只需要按照任务需求,补充右侧编辑器的代码,然后点击评测就 ok 了。 - -

答案代码

package net.educoder;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import java.util.Arrays;
import java.util.Properties;
public class App {
    public static void main(String[] args) {
        Properties props = new Properties();
        /**--------------begin----------------*/
        //1.设置kafka集群的地址
        props.put("bootstrap.servers", "127.0.0.1:9092");
        //2.设置消费者组,组名字自定义,组名字相同的消费者在一个组
        props.put("group.id", "g1");
        //3.开启offset自动提交
        props.put("enable.auto.commit", "true");
        //4.自动提交时间间隔
        props.put("auto.commit.interval.ms", "1000");
        //5.序列化器
        props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        /**---------------end---------------*/
        /**--------------begin----------------*/
        //6.创建kafka消费者
        KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
        //7.订阅kafka的topic
        consumer.subscribe(Arrays.asList("demo"));
        /**---------------end---------------*/
        int i = 1;
        while (true) {
            /**----------------------begin--------------------------------*/
            //8.poll消息数据,返回的变量为crs
            ConsumerRecords<String, String> crs = consumer.poll(100);
            for (ConsumerRecord<String, String> cr : crs) {
                System.out.println("consume data:" + i);
                i++;
            }
            /**----------------------end--------------------------------*/
            if (i > 10) {
                return;
            }
        }
    }
}

第4关:消费者( Consumer )- 手动提交偏移量

任务描述

本关任务:编写一个 Kafka 消费者并使用手动提交偏移量进行数据消费。

相关知识

为了完成本关任务,你需要掌握:1.如何编写 Kafka 消费者,2.如何手动提交偏移量。

Kafka 两种手动提交方式

  1. 异步提交( CommitAsync ):

异步模式下,提交失败也不会尝试提交。消费者线程不会被阻塞,因为异步操作,可能在提交偏移量操作结果未返回时就开始下一次拉取操作。

  1. 同步提交( CommitSync ):

同步模式下,提交失败时一直尝试提交,直到遇到无法重试才结束。同步方式下,消费者线程在拉取消息时会被阻塞,直到偏移量提交操作成功或者在提交过程中发生错误。

注意:实现手动提交前需要在创建消费者时关闭自动提交,设置enable.auto.commit=false

编程要求

根据提示,在右侧编辑器补充代码,使用 Kafka Producer API 对名为 demo 的 Topic 进行数据生产

测试说明

平台会对你的命令进行检验并运行,你只需要按照任务需求,补充右侧编辑器的代码,然后点击评测就ok了。 - -

答案代码

命令行代码

# kafka 依赖 zookeeper,所以需要先启动 zookeeper 服务
cd $ZOOKEEPER_HOME/
bin/zkServer.sh start conf/zoo.cfg
# 启动 Kafka 服务
cd $KAFKA_HOME/
bin/kafka-server-start.sh -daemon conf/server.properties

Java 代码

package net.educoder;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;
import java.util.Properties;
public class App {
    public static void main(String[] args){
        Properties props = new Properties();
        /**-----------------begin------------------------*/
        //1.设置kafka集群的地址
        props.put("bootstrap.servers", "127.0.0.1:9092");
        //2.设置消费者组,组名字自定义,组名字相同的消费者在一个组
        props.put("group.id", "g1");
        //3.关闭offset自动提交
        props.put("enable.auto.commit", "false");
        //4.序列化器
        props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        /**-----------------end------------------------*/
        /**-----------------begin------------------------*/
        //5.实例化一个消费者
        KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
        //6.消费者订阅主题,订阅名为demo的主题
        consumer.subscribe(Arrays.asList("demo"));
        /**-----------------end------------------------*/
        final int minBatchSize = 10;
        List<ConsumerRecord<String, String>> buffer = new ArrayList<>();
        while (true) {
            ConsumerRecords<String, String> records = consumer.poll(100);
            for (ConsumerRecord<String, String> record : records) {
                buffer.add(record);
            }
            if (buffer.size() >= minBatchSize) {
                for (ConsumerRecord bf : buffer) {
                    System.out.printf("offset = %d, key = %s, value = %s%n", bf.offset(), bf.key(), bf.value());
                }
                /**-----------------begin------------------------*/
                //7.手动提交偏移量
                consumer.commitSync();
                /**-----------------end------------------------*/
                buffer.clear();
                return;
            }
        }
    }
}


到了这里,关于【头歌实训】kafka-入门篇的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【头歌】大数据从入门到实战 - 第2章 分布式文件系统HDFS

    任务描述 本关任务:使用 Hadoop 命令来操作分布式文件系统。 编程要求 在右侧命令行中启动 Hadoop ,进行如下操作。 在 HDFS 中创建 /usr/output/ 文件夹; 在本地创建 hello.txt 文件并添加内容:“ HDFS 的块比磁盘的块大,其目的是为了最小化寻址开销。”; 将 hello.txt 上传至 H

    2024年02月05日
    浏览(27)
  • 头歌实训Junit实训进阶篇

    学员写一个Junit异常测试,用来判断实例化的对象数据是否合法。

    2024年02月16日
    浏览(34)
  • 头歌实训-离散数学-图论!

    5阶无向完全图的边数为:10 设图 G 有 n 个结点, m 条边,且 G 中每个结点的度数不是 k ,就是 k+1 ,则 G 中度数为 k 的节点数是: n(k+1)-2m 若一个图有5个顶点,8条边,则该图所有顶点的度数和为多少?16 他让输出关联矩阵和邻接矩阵这不简单么? 我是直接摆烂了 输出个球呀

    2024年02月04日
    浏览(55)
  • 头歌实训-机器学习(逻辑回归)

    1.逻辑回归简述 2.逻辑回归算法详解 3.sklearn逻辑回归 - 手写数字识别 4.逻辑回归案例 - 癌细胞精准识别

    2024年04月13日
    浏览(28)
  • 头歌实训平台C语言

    目录 C语言程序设计编辑与调试环境  第1关打印输出 Hello World   第2关打印输出图形  第3关求3个数的最大值  第4关熟悉C语言调试过程 顺序结构程序设计 第1关加法运算 第2关不使用第3个变量,实现两个数的对调 第3关用宏定义常量 第4关数字分离 第5关计算总成绩和平均成绩

    2023年04月25日
    浏览(29)
  • ELK分布式日志收集快速入门-(一)-kafka单体篇

    JDK 安装教程自行百度-这个比较简单。 zookeeper zookeeper安装参考地址((2条消息) 快速搭建-分布式远程调用框架搭建-dubbo+zookper+springboot demo 演示_康世行的博客-CSDN博客) 修改zookeeper配合文件 启动成功 开放端口号 下载kafka安装包 安装遇到的问题(由于网站证书不安全导致) 解

    2023年04月08日
    浏览(32)
  • 获取头歌实训参考答案(EduCoder)

    头歌EduCoder平台实训答案在此,里面搜集了一些答案,可以查查有没有想看的。 https://edaser.github.io/ 一定 不要直接复制答案 ,建议还是自己做,实在不会做的,参考看完后要独立完成。 在这里可以查询一些实训的答案,后台的数据库记录了几百个实训关卡的答案,实现的方

    2024年02月11日
    浏览(32)
  • Educoder_头歌实训_离散数学_图论

    目录 第1关:图的概念 任务描述 相关知识 图的概念 习题参考 第2关:图的表示 任务描述 相关知识 图的表示 编程要求 测试说明 习题参考 第3关:单源最短通路问题 任务描述 相关知识 单源最短通路 Dijkstra算法 编程要求 测试说明 习题参考 本关任务:学习图的基本概念,完

    2024年02月03日
    浏览(34)
  • 分布式消息流处理平台kafka(一)-kafka单机、集群环境搭建流程及使用入门

    kafka最初是LinkedIn的一个内部基础设施系统。最初开发的起因是,LinkedIn虽然有了数据库和其他系统可以用来存储数据,但是缺乏一个可以帮助处理持续数据流的组件。 所以在设计理念上,开发者不想只是开发一个能够存储数据的系统,如关系数据库、Nosql数据库、搜索引擎等

    2024年02月16日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包