大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban

这篇具有很好参考价值的文章主要介绍了大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


零:版本说明

Hadoop:3.1.0
CentOS:7.6
JDK:1.8

一、安装CentOS

这里网上教程很多,就不贴图了
【内存可以尽量大一些,不然Hive运行时内存不够】
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban

二、Hadoop单机配置

创建tools目录,用于存放文件安装包
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
将Hadoop和JDK的安装包上传上去
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban

创建server目录,存放解压后的文件
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
解压jdk
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
配置环境变量
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
配置免密登录
配置映射,配置ip地址和主机名映射,以后就可以用主机名代替ip地址
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
生成公钥和私钥
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
查看生成的公钥和私钥,并将公钥写入授权文件
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
解压Hadoop
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
配置Hadoop
修改配置文件
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban

大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban

初始化并启动HDFS
关闭防火墙
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
第一次启动需要先初始化HDFS
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
配置启动用户
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban

大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
配置环境变量,方便启动
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban

启动HDFS

[root@localhost ~]# start-dfs.sh

验证是否启动成功

方式1:
[root@localhost ~]# jps
58466 Jps
54755 NameNode
55401 SecondaryNameNode
54938 DataNode

方式2:访问这个网址,虚拟机地址:9870端口号
192.168.163.129:9870

配置Hadoop(YARN)环境
修改配置文件mapred-site.xml和yarn-site.xml

[root@localhost ~]# cd /opt/server/hadoop-3.1.0/etc/hadoop/
[root@localhost hadoop]# vim mapred-site.xml 
<configuration>
	<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>
	<property>
		<name>yarn.app.mapreduce.am.env</name>
		<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
	</property>
	<property>
		<name>mapreduce.map.env</name>
		<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
	</property>
	<property>
		<name>mapreduce.reduce.env</name>
		<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
	</property>
</configuration>
[root@localhost hadoop]# vim yarn-site.xml 
<configuration>
	<property>
	<!--配置 NodeManager 上运行的附属服务。需要配置成 mapreduce_shuffle 后才可
	以在Yarn 上运行 MapRedvimuce 程序。-->
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
	</property>
</configuration>

启动服务

[root@localhost sbin]# pwd
/opt/server/hadoop-3.1.0/sbin
[root@localhost sbin]# vim start-yarn.sh
[root@localhost sbin]# vim stop-yarn.sh
# 在两个文件顶部添加如下内容
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root
[root@localhost ~]# start-yarn.sh

验证是否启动成功

方式1:
[root@localhost ~]# jps
96707 NodeManager
54755 NameNode
55401 SecondaryNameNode
54938 DataNode
96476 ResourceManager
98686 Jps

方式2:访问这个网址,虚拟机地址:8088端口号
192.168.163.129:8088

三、Hive安装部署

准备好Hive和MySQL这两个安装包
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
安装MySQL
卸载CentOS7自带的mariadb

[root@server ~]# rpm -qa|grep mariadb
mariadb-libs-5.5.60-1.el7_5.x86_64
[root@server ~]# rpm -e mariadb-libs-5.5.60-1.el7_5.x86_64 --nodeps 

解压mysql

[root@server ~]# mkdir /opt/server/mysql
[root@server mysql]# cd /opt/tools/
[root@server tools]# tar -xvf mysql-5.7.34-1.el7.x86_64.rpm-bundle.tar -C /opt/server/mysql/

执行安装

# 安装依赖
[root@server tools]# yum -y install libaio
[root@server tools]# yum -y install libncurses*
[root@server tools]# yum -y install perl perl-devel
# 切换到安装目录进行安装
[root@server tools]# cd /opt/server/mysql/
[root@server mysql]# rpm -ivh mysql-community-common-5.7.34-1.el7.x86_64.rpm
[root@server mysql]# rpm -ivh mysql-community-libs-5.7.34-1.el7.x86_64.rpm
[root@server mysql]# rpm -ivh mysql-community-client-5.7.34-1.el7.x86_64.rpm
[root@server mysql]# rpm -ivh mysql-community-server-5.7.34-1.el7.x86_64.rpm

启动Mysql

[root@server mysql]# systemctl start mysqld.service
[root@server mysql]# cat /var/log/mysqld.log | grep password
2023-06-15T07:04:14.100925Z 1 [Note] A temporary password is generated for root@localhost: !=qcAerHW5*r

修改初始的临时密码

[root@server mysql]# mysql -u root -p
Enter password: #上边的那个!=qcAerHW5*r
mysql> set global validate_password_policy=0;
mysql> set global validate_password_length=1;
mysql> set password=password('root');

授予远程连接权限

mysql> grant all privileges on *.* to 'root' @'%' identified by 'root';
mysql> flush privileges;

设置开机自启动,并检查是否成功

[root@server mysql]# systemctl enable mysqld
[root@server mysql]# systemctl list-unit-files | grep mysqld
mysqld.service                                enabled 
mysqld@.service                               disabled

Mysql相关控制命令

#启动、关闭、状态查看
systemctl stop mysqld
systemctl status mysqld
systemctl start mysqld

Hive安装配置
解压Hive

[root@server mysql]# cd /opt/tools
[root@server tools]# ls
apache-hive-3.1.2-bin.tar.gz  hadoop-3.1.0.tar.gz  jdk-8u371-linux-x64.tar.gz  mysql-5.7.34-1.el7.x86_64.rpm-bundle.tar
[root@server tools]# tar -zxvf apache-hive-3.1.2-bin.tar.gz -C /opt/server

添加mysql_jdbc驱动到hive安装包lib目录下
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
修改hive环境变量文件,指定Hadoop安装路径

cd /opt/server/apache-hive-3.1.2-bin/conf
cp hive-env.sh.template hive-env.sh
vim hive-env.sh

大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
新建hive-site.xml的配置文件,配置存放元数据的MySQL的地址、驱动、用户名
密码等信息

[root@server conf]# vim hive-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
	<!-- 存储元数据mysql相关配置 /etc/hosts -->
	<property>
		<name>javax.jdo.option.ConnectionURL</name>
		<value> jdbc:mysql://server:3306/hive?createDatabaseIfNotExist=true&amp;useSSL=false&amp;useUnicode=true&amp;characterEncoding=UTF-8</value>
	</property>

	<property>
		<name>javax.jdo.option.ConnectionDriverName</name>
		<value>com.mysql.jdbc.Driver</value>
	</property>

	<property>
		<name>javax.jdo.option.ConnectionUserName</name>
		<value>root</value>
	</property>
	
	<property>
		<name>javax.jdo.option.ConnectionPassword</name>
		<value>root</value>
	</property>
</configuration>

初始化元数据库

[root@server conf]# cd /opt/server/apache-hive-3.1.2-bin/bin
[root@server conf]# ./schematool -dbType mysql -initSchema

启动Hive
添加环境变量

[root@server conf]# vim /etc/profile

大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban

[root@server conf]# source /etc/profile
# 启动前需要先把hadoop相关的启动起来
[root@server ~]# start-dfs.sh
[root@server ~]# start-yarn.sh
# 启动hive
[root@server ~]# hive

大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban

hive> create database test;
hive> use test;
hive> create table t_student(id int, name varchar(255));
hive> insert into table t_student values(1,'baobei');

大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban

大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban

四、安装部署Flume、Nginx

Flume日志采集工具安装
下载好flume安装包
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
解压

tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /opt/server/

修改flume配置文件flume-env.sh

[root@server tools]# cd /opt/server/apache-flume-1.9.0-bin/conf
[root@server conf]# ls
flume-conf.properties.template  flume-env.ps1.template  flume-env.sh.template  log4j.properties
[root@server conf]# cp flume-env.sh.template flume-env.sh
[root@server conf]# vim flume-env.sh

大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
Nginx-web服务器安装

yum install epel-release
yum update
yum -y install nginx --nogpgcheck

开启nginx服务

[root@server conf]# systemctl start nginx

大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
查看网站的访问日志

[root@server nginx]# cd /var/log/nginx
[root@server nginx]# cat access.log

添加hadoop的相关jar包

[root@server nginx]# cp /opt/server/hadoop-3.1.0/share/hadoop/common/*.jar /opt/server/apache-flume-1.9.0-bin/lib
[root@server nginx]# cp /opt/server/hadoop-3.1.0/share/hadoop/common/lib/*.jar /opt/server/apache-flume-1.9.0-bin/lib
[root@server nginx]# cp /opt/server/hadoop-3.1.0/share/hadoop/hdfs/*.jar /opt/server/apache-flume-1.9.0-bin/lib

创建配置文件taildir-hdfs.conf,监控/var/log/nginx下的日志

[root@server nginx]# cd /opt/server/apache-flume-1.9.0-bin/conf/
[root@server conf]# vim taildir-hdfs.conf
a3.sources.r3.filegroups.f1 = /var/log/nginx/access.log
# 用于记录文件读取的位置信息
a3.sources.r3.positionFile = /opt/server/apache-flume-1.9.0-bin/tail_dir.json
# Describe the sink
a3.sinks.k3.type = hdfs
a3.sinks.k3.hdfs.path = hdfs://server:8020/user/tailDir
a3.sinks.k3.hdfs.fileType = DataStream
# 设置每个文件的滚动大小大概是 128M,默认值:1024,当临时文件达到该大小(单位:bytes)时,滚动
成目标文件。如果设置成0,则表示不根据临时文件大小来滚动文件。
a3.sinks.k3.hdfs.rollSize = 134217700
# 默认值:10,当events数据达到该数量时候,将临时文件滚动成目标文件,如果设置成0,则表示不根据
events数据来滚动文件。
a3.sinks.k3.hdfs.rollCount = 0
# 不随时间滚动,默认为30秒
a3.sinks.k3.hdfs.rollInterval = 10
# flume检测到hdfs在复制块时会自动滚动文件,导致roll参数不生效,要将该参数设置为1;否则HFDS文
件所在块的复制会引起文件滚动
a3.sinks.k3.hdfs.minBlockReplicas = 1
# Use a channel which buffers events in memory
a3.channels.c3.type = memory
a3.channels.c3.capacity = 1000
a3.channels.c3.transactionCapacity = 100
# Bind the source and sink to the channel
a3.sources.r3.channels = c3
a3.sinks.k3.channel = c3

启动flume

[root@server apache-flume-1.9.0-bin]# bin/flume-ng agent -c ./conf -f ./conf/taildir-hdfs.conf -n a3 -Dflume.root.logger=INFO,console

大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban

五、Sqoop安装

大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
上传安装包
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
解压

[root@server tools]# tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /opt/server/

编辑配置文件

[root@server tools]# cd /opt/server/sqoop-1.4.7.bin__hadoop-2.6.0/conf/
[root@server conf]# cp sqoop-env-template.sh sqoop-env.sh
[root@server conf]# vim sqoop-env.sh

大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban
上传mysql的jdbc驱动包到lib目录下
大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban文章来源地址https://www.toymoban.com/news/detail-490737.html

到了这里,关于大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Hadoop——Hive运行环境搭建

    Windows:10         JDK:1.8         Apache Hadoop:2.7.0 Apache Hive:2.1.1         Apache Hive src:1.2.2         MySQL:5.7 1、下载 Hadoop搭建 Apache Hive 2.1.1:https://archive.apache.org/dist/hive/hive-2.1.1/apache-hive-2.1.1-bin.tar.gz Apache Hive 1.2.2 src:https://archive.apache.org/dist/hive/hive-1.2.2/apache-hive-1.

    2024年02月16日
    浏览(28)
  • [sqoop]hive3.1.2 hadoop3.1.1安装sqoop1.4.7

    Hadoop3.2.4+Hive3.1.2+sqoop1.4.7安装部署_hadoop sqoop安装_alicely07的博客-CSDN博客 sqoop-env.sh 末尾添加 环境变量 先创建目录,解决警告:accumulo does not exist! (1)添加jdbc驱动包:将MySQL数据库的JDBC驱动包mysql-connector-java-5.1.37.jar添加到Sqoop安装目录的lib目录中。 (2)删除Sqoop安装目录的

    2024年02月07日
    浏览(49)
  • 单机搭建hadoop环境(包括hdfs、yarn、hive)

    单机可以搭建伪分布式hadoop环境,用来测试和开发使用,hadoop包括: hdfs服务器, yarn服务器,yarn的前提是hdfs服务器, 在前面两个的基础上,课可以搭建hive服务器,不过hive不属于hadoop的必须部分。 过程不要想的太复杂,其实挺简单,这里用最糙最快最直接的方法,在我的单

    2024年02月20日
    浏览(41)
  • 大数据组件-Flume集群环境搭建

    🥇🥇【大数据学习记录篇】-持续更新中~🥇🥇 个人主页:beixi@ 本文章收录于专栏(点击传送):【大数据学习】 💓💓持续更新中,感谢各位前辈朋友们支持学习~💓💓 Flume是一个分布式、可靠和高可用性的数据采集工具,用于将大量数据从各种源采集到Hadoop生态系统中

    2024年02月10日
    浏览(72)
  • Sqoop与Flume的集成:实时数据采集

    将Sqoop与Flume集成是实现实时数据采集和传输的重要步骤之一。Sqoop用于将数据从关系型数据库导入到Hadoop生态系统中,而Flume用于数据流的实时采集、传输和处理。本文将深入探讨如何使用Sqoop与Flume集成,提供详细的步骤、示例代码和最佳实践,以确保能够成功实现实时数据

    2024年01月23日
    浏览(36)
  • 数据同步工具调研选型:SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比

    Apache SeaTunnel 是一个非常易用的超高性能分布式数据集成产品,支持海量数据的离线及实时同步。每天可稳定高效同步万亿级数据,已应用于数百家企业生产,也是首个由国人主导贡献到 Apache 基金会的数据集成顶级项目。 SeaTunnel 主要解决数据集成领域的常见问题: * 数据源

    2024年02月04日
    浏览(36)
  • 大数据Hadoop之——部署hadoop+hive+Mysql环境(window11)

    目录 一、安装JDK8 1)JDK下载地址 2)设置环境变量 二、Hadoop安装(window10环境) 1)下载Hadoop3.1.3 2)Hadoop配置环境变量 3)在hadoop解压目录下创建相关目录 4)修改Hadoop配置文件 1、core-site.xml文件:添加以下配置 2、hdfs-site.xml文件:添加以下配置,路径改成自己的安装路径 3、

    2024年02月08日
    浏览(32)
  • 基于CentOS 7 的 Hadoop3版本分布式环境配置搭建

    以下是在VMware虚拟机中安装centos 7去配置hadoop。所以要准备的包 centos 7:Index of /apache/hadoop/common/hadoop-3.3.5 hadoop3.3.5:Index of /apache/hadoop/common/hadoop-3.3.5 查看原本的jdk版本   其实原来的openjdk版本也是可用的,但是hadoop3.x不支持较低版本的jdk,所以这里卸载重新安装新版本jdk文件

    2024年02月01日
    浏览(44)
  • flume环境配置-传输Hadoop日志(namenode或datanode日志)

    解压文件 修改文件名  配置环境变量 执行flume-ng version  将flume-env.sh.template改名为flume-env.sh, 并修改其配置 启动Flume传输Hadoop日志 启动flume  解压文件 修改文件名  配置环境变量 执行flume-ng version  将flume-env.sh.template改名为flume-env.sh, 并修改其配置          在flume/conf目

    2024年02月09日
    浏览(46)
  • 构建大数据环境:Hadoop、MySQL、Hive、Scala和Spark的安装与配置

    在当今的数据驱动时代,构建一个强大的大数据环境对于企业和组织来说至关重要。本文将介绍如何安装和配置Hadoop、MySQL、Hive、Scala和Spark,以搭建一个完整的大数据环境。 安装Hadoop 首先,从Apache Hadoop的官方网站下载所需的Hadoop发行版。选择适合你系统的二进制发行版,下

    2024年02月11日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包