Flume多路复用模式把接收数据注入kafka 的同时,将数据备份到HDFS目录

这篇具有很好参考价值的文章主要介绍了Flume多路复用模式把接收数据注入kafka 的同时,将数据备份到HDFS目录。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

  1. 启动hadoop、在hdfs中创建需要访问的目录

配置Hadoop的核心配置文件

core-site.xml:设置Hadoop的核心配置参数,例如NameNode的地址、数据块大小、副本数量等。示例配置如下:

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
  </property>
</configuration>

hdfs-site.xml:设置HDFS(Hadoop分布式文件系统)的参数,例如数据块复制因子、NameNode的存储路径等。示例配置如下:

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/opt/hadoop-3.3.0/data/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/opt/hadoop-3.3.0/data/datanode</value>
  </property>
</configuration>

mapred-site.xml:如果使用MapReduce框架,则需要配置该文件,设置JobTracker的地址等信息。示例配置如下:

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

格式化NameNode。在终端中输入以下命令:

hdfs namenode -format
需要注意的是,格式化会删除所有已有的HDFS数据,所以需要谨慎执行。

配置Hadoop集群的JAVA_HOME

vim ./etc/hadoop/hadoop-env.sh
#添加JAVA_HOME路径
export JAVA_HOME = /opt/jdk-8

启动Hadoop集群。在终端中输入以下命令:

start-all.sh
如果一切正常,Hadoop集群将启动成功

创建hdfs存储目录

hdfs dfs -mkdir -p /user/test/flumebackup

查看是否有该目录

hdfs dfs -ls -R /user/

2.启动zookeeper、kafka并创建主题

因为我已经做了一遍该配置,请移步至→

https://blog.csdn.net/HaveAGoodDay428/article/details/129567879

3.配置flume配置文件并启动flume

创建flume配置文件flume-kafka.conf

flume采集kafka到hdfs,Flume,大数据应用开发赛项,Hadoop,大数据,flume,kafka,hadoop,hdfs,Powered by 金山文档

启动Flume文章来源地址https://www.toymoban.com/news/detail-603918.html

./bin/flue-ng agent -n a1 -c conf -f ./conf/flume-kafka.conf -Dflume.root.logger=INFO,console

4.netcat向本地10050端口发送socket数据

nc localhost 10050
可以通过查看hdfs存储目录中每次发送socket数据时是否新增文件

到了这里,关于Flume多路复用模式把接收数据注入kafka 的同时,将数据备份到HDFS目录的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • TCP 编程探秘:建立连接、数据传输与多路复用的精髓

    函数名 用法 参数 返回值 说明 socket int socket(int domain, int type, int protocol); domain : 协议族 type : 套接字类型 protocol : 协议类型 成功时返回套接字描述符,失败时返回 -1 创建一个套接字 bind int bind(int sockfd, const struct sockaddr *addr, socklen_t addrlen); sockfd : 套接字描述符 addr : 指向地址结

    2024年02月03日
    浏览(33)
  • 计算机网络_ 1.3 网络核心(数据交换_电路交换_多路复用)

    多路复用(Multiplexing),简称复用,是通信技术的基本概念。 链路/网络资源(如带宽)划分为“资源片” 将资源片分配给各路“呼叫”(calls) 每路呼叫 独占 分配到的资源片进行通信 资源片可能“闲置”(idle) (无共享) 典型多路复用方法 频分多路复用( frequency division mult

    2024年02月12日
    浏览(51)
  • 网络通信基础 - 多路复用技术(频分多路复用、时分多路复用、波分多路复用)

    多路复用技术:把多个低速信道组合成一个高速信道的技术 这种技术要用到两个设备,统称为 多路器(MUX) 多路复用器(Multiplexer) :在发送端根据某种约定的规则把多个低带宽的信号复合成一个高带宽的信号 多路分配器(Demultiplexer) :在接收端根据同一规则把高带宽信

    2023年04月23日
    浏览(45)
  • 计算机网络——17多路复用和解复用

    在发送方主机多路复用 从多个套接字接收来自多个进程的报文,根据套接字对应的IP地址和端口号等信息对报文段用头部加以封装(连头部信息用于以后的解复用) 在接收方主机多路解复用 根据报文段的头部信息中的IP地址和端口号接收到的报文段发给正确的套接字(和对应

    2024年02月20日
    浏览(44)
  • 【FPGA】Verilog 实践:MUX 多路复用器 | Multiplexer | 实现 4 到 1 线路多路复用器

    0x00 MUX 多路复用器(Multiplexer) 多路复用器 (Multiplexer,简称 MUX) 是一种电路,用于从多个输入中选择一个特定输入。它为  个输入提供一个输出,并有  个 select single,作用是从多个输入中选择一个。 多路复用器有两个主要部分:选择器和数据线。选择器用于选择输入信号中

    2024年02月04日
    浏览(46)
  • Flume采集端口数据kafka消费

    1.flume单独搭建 2.Flume采集端口数据kafka消费

    2024年02月06日
    浏览(49)
  • Flume采集数据到Kafka操作详解

    目录 一、创建一个Kafka主题 二、配置Flume 三、开启Flume 四、开启Kafka消费者 五、复制文件到Flume监控的source目录下 六、查看Flume是否能够成功采集 七、采集后查看Kafka消费者主题 八、采集数据错误解决办法 1.Ctrl+C关闭flume 2.删除出错的topic并重新创建 3.删除对应Flume文件中指定

    2024年02月09日
    浏览(62)
  • Flume学习-采集端口数据存入kafka

    启动zookeeper、kafka并创建kafka主题 2、创建flume-kafka.conf配置文件 用于采集socket数据后存入kafka 在flume文件夹中的conf下新建flume-kafka.conf配置文件 设置监听本地端口10050 netcat发送的socket数据,讲采集到的数据存入kafka的hunter主题中 3、启动flume ./bin/flume-ng :启动Flume-ng二进制文件。

    2024年02月03日
    浏览(46)
  • Kafka集群间同步数据方案-Flume

    Apache Flume 是一个分布式、高可靠、高可用的用来收集、聚合、转移不同来源的大量日志数据到中央数据仓库的工具。 系统要求 Java运行环境 - Java 1.8或更高版本 体系结构 Event是Flume定义的一个数据流传输的最小单元。Agent就是一个Flume的实例,本质是一个JVM进程,该JVM进程控制

    2024年02月11日
    浏览(48)
  • 【计算机网络笔记】传输层——多路复用和多路分用

    什么是计算机网络? 什么是网络协议? 计算机网络的结构 数据交换之电路交换 数据交换之报文交换和分组交换 分组交换 vs 电路交换 计算机网络性能(1)——速率、带宽、延迟 计算机网络性能(2)——时延带宽积、丢包率、吞吐量/率 计算机网络体系结构概念 OSI参考模型

    2024年02月07日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包