大数据开发之CDH使用搭建大数据平台-Toy模板网

这篇具有很好参考价值的文章主要介绍了大数据开发之CDH使用搭建大数据平台。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1、CDH介绍

它是Cloudera公司提供的一种大数据平台解决方案。CDH的全称是Cloudera’s Distribution including Apache Hadoop，它是一个开放源代码的大数据平台，基于Apache Hadoop和其他相关的开源技术构建，包括HDFS、MapReduce、HBase、ZooKeeper、Hue、Oozie、Flume、Sqoop等等。

CDH提供了一个完整的大数据解决方案，包括数据管理、数据处理、数据分析和数据可视化等方面，可以帮助用户快速搭建和部署大数据平台，支持多种数据源的处理和集成，同时提供了强大的安全性和可扩展性。

作为大数据开发架构师，熟悉CDH的搭建和使用可以帮助您更好地构建和管理大数据平台，提高数据处理和分析的效率和准确性

2、CDH 与 Hadoop的关系？

实际上，CDH就是对Hadoop生态系统的一种打包和封装，它在Hadoop的基础上进行了定制和优化，提供了更加稳定、安全、易用的大数据平台解决方案。CDH包含了最新版本的Hadoop和相关的开源组件，同时提供了额外的管理工具和支持服务，可以方便用户进行集群的部署、配置、监控和管理等。

因此，可以说CDH是一种基于Hadoop的大数据平台解决方案，它继承了Hadoop的优点，同时提供了更多的功能和服务，可以帮助用户更加高效地构建和管理大数据平台。

优缺点相比
Hadoop的优点：分布式开源免费；灵活可根据需求扩展集群规模；对硬件设备要求低；
Hadoop的缺点：安装和配置复杂，需要专门的运维人员监控
CDH的优点：集成了多个Hadoop生态系统中的工具方便管理，支持高可用和故障转移保证集群的稳定性，提供高级安全性功能；
CDH的缺点：开销大需要更多的资源，是商业发行需要支付费用

3、使用CDH搭建数据平台，需要准备什么？

1、Cloudera Manager：Cloudera Manager是一个企业级的管理和监控平台，用于自动化地完成CDH集群的安装、配置、升级、监控和故障排除等任务。是一个端到端的服务

2、CDH发行版：CDH是Cloudera Distribution of Hadoop的缩写，是一个基于Apache Hadoop的发行版，包含了Hadoop生态系统中的多个组件和工具，如HDFS、MapReduce、HBase、Hive、Spark等。

3、操作系统：CDH支持多种操作系统，如CentOS、RedHat、Ubuntu等。在搭建CDH之前需要先安装和配置操作系统。

4、Java运行环境：CDH需要Java运行环境来运行Hadoop生态系统中的各种组件和工具。需要安装和配置Java运行环境，并设置JAVA_HOME环境变量。

5、数据库：CDH需要使用数据库来存储集群的元数据信息。可以选择使用MySQL或PostgreSQL等关系型数据库。

6、硬件：CDH需要使用多台服务器组成集群，需要选择适当的硬件设备，如CPU、内存、存储等。

7、网络：CDH集群中的各个节点需要通过网络连接，需要进行网络配置和调优。

注意：1和2是两个东西不要混肴，在搭建CDH集群的过程中，首先需要下载和安装CDH软件包，然后使用Cloudera Manager来自动化地完成集群的安装、配置、升级、监控和故障排除等任务。因此，CDH软件包和Cloudera Manager是两个不同的东西，但它们在CDH集群的搭建中都起着重要的作用。
此外集群组件的正常运行还需要一些依赖包，以下是一些常见的CDH依赖包与下载地址：

关于各种依赖包配置问题，可进我的主页搜索
数据开发之CDH搭建所需依赖如何配置？
1、Java运行环境：CDH需要使用Java运行环境来运行Hadoop生态系统中的各种组件和工具。需要安装并配置Java运行环境，并设置JAVA_HOME环境变量。https://www.oracle.com/java/technologies/javase-downloads.html
2、数据库驱动程序：CDH需要使用数据库来存储集群的元数据信息。需要安装并配置MySQL或PostgreSQL等关系型数据库，并下载相应的数据库驱动程序。https://dev.mysql.com/downloads/connector/j/
3、C/C++编译器：CDH中的某些组件需要使用C/C++编译器进行编译和链接。需要安装并配置gcc、g++等编译器。https://gcc.gnu.org/
4、Python库：CDH中的某些组件需要使用Python库进行开发和运行。需要安装并配置Python和相关的Python库，如numpy、pandas等。https://pypi.org/下载安装。
5、其他依赖包：CDH中的其他组件和工具可能需要使用其他依赖包进行开发和运行。具体需要哪些依赖包，可以参考CDH官方文档和相关教程。

CDH相关文档与教程地址

1、CDH官方网站：CDH官方网站提供了丰富的CDH文档和教程资源，包括CDH安装指南、CDH组件使用手册、CDH官方博客等。您可以访问CDH官方网站获取相关资源，网址为：https://www.cloudera.com/products/open-source/apache-hadoop.html

2、Cloudera社区：Cloudera社区是一个开放的社区平台，提供了CDH相关的技术论坛、博客、问答等交流渠道。您可以访问Cloudera社区获取CDH相关的技术支持和资源，网址为：https://community.cloudera.com/

3、CDH用户手册：CDH用户手册是CDH官方文档的一部分，包含了CDH的安装、配置、管理、使用等方面的详细说明。您可以在CDH官方网站下载CDH用户手册的PDF版本，也可以在CDH相关组件的安装目录中找到相应的HTML版本。在终端中输入命令：cd /usr/share/doc/cdh/，找到相应的组件手册。

4、CDH教程：CDH官方网站提供了一些针对CDH的教程，包括CDH入门教程、CDH安全教程、CDH数据处理教程等。您可以在CDH官方网站的教程页面查看和下载相关教程，网址为：https://www.cloudera.com/tutorials.html

需要注意的是，CDH的版本和组件可能会因时间而异，建议在查阅CDH官方文档和相关教程时选择与您使用的版本和组件相对应的文档和教程。同时，您也可以通过搜索引擎、社区论坛等方式获取CDH相关的技术支持和资源。

5、CDH Manager架构及角色介绍

1、Agent：Agent是CDH Manager的工作单元，负责在每个节点上执行管理任务和监控指标的收集，并将结果汇报给CDH Manager Server。Agent具有以下职责：
在节点上安装和配置管理代理程序，用于执行管理任务和监控指标的收集；
收集节点上的运行状况数据和指标信息，并将其发送给CDH Manager Server；
执行CDH Manager Server下发的命令和任务，如启动、停止、重启服务等。

2、Server：Server是CDH Manager的核心组件，负责管理和监控整个Hadoop集群，其职责包括：
维护Hadoop集群的拓扑结构和配置信息；
监控集群中各个服务的运行状况和指标信息；
收集Agent发来的数据，并将其存储在数据库中；
提供Web界面和API接口，方便用户进行集群管理和监控。

3、Database：CDH Manager使用MySQL作为其后端数据库，用于存储集群的配置信息、运行状况数据和指标信息，其职责包括：
存储Hadoop集群的拓扑结构和配置信息；
存储监控指标和运行状况数据；
提供数据查询和分析功能。

4、UI：CDH Manager提供Web界面和API接口，方便用户进行集群管理和监控。其职责包括：
提供用户界面和API接口，方便用户进行集群管理和监控；
显示Hadoop集群的拓扑结构和运行状况信息；
提供服务启动、停止、重启等管理功能；
提供监控指标的图表和数据查询功能。
总体而言，CDH Manager的架构角色和责任包括Agent、Server、Database和UI，它们共同构成了CDH Manager的管理和监控体系，为用户提供了方便、可靠的Hadoop集群管理和监控功能。
大数据开发之CDH使用搭建大数据平台

6、CDH 搭建步骤

1、环境准备：
（1）准备一台或多台服务器，可以是虚拟机或物理机，建议使用Linux系统（如CentOS、Ubuntu等）。
（2）在每台服务器上安装Java环境，可以使用yum或apt-get等包管理工具进行安装。例如，在CentOS系统上可以使用以下命令安装Java环境：yum install -y java-1.8.0-openjdk-devel
（3）下载和解压CDH安装包

这段内容是关于在CentOS系统上如何安装CDH（Cloudera Distribution of Hadoop）安装包的。
具体步骤如下：
使用wget命令下载CDH6.3.4的yum仓库文件cloudera-cdh6.repo到/etc/yum.repos.d/目录下：
命令：
wget https://archive.cloudera.com/cdh6/6.3.4/redhat7/yum/cloudera-cdh6.repo -P /etc/yum.repos.d/
这个yum仓库文件包含了CDH6.3.4的各个组件的安装包的下载地址。
使用yum命令安装CDH的各个组件，包括Hadoop（hadoop-hdfs-namenode、hadoop-hdfs-datanode、hadoop-yarn-resourcemanager、hadoop-yarn-nodemanager、hadoop-mapreduce）、HBase（hbase-regionserver、hbase-master）、Hive、Impala（impala-server、impala-shell、impala-catalog、impala-state-store）等：
命令：
yum install -y hadoop-hdfs-namenode hadoop-hdfs-datanode hadoop-yarn-resourcemanager hadoop-yarn-nodemanager hadoop-mapreduce hadoop-hbase hive hbase-regionserver hbase-master impala impala-server impala-shell impala-catalog impala-state-store
这个命令会自动下载并安装CDH的各个组件，其中-y参数表示自动安装依赖的软件包，无需手动确认。

（4）配置主机名和IP地址，在每台服务器上配置唯一的主机名和IP地址，可以使用以下命令进行配置：
配置主机名

hostnamectl set-hostname <hostname>

配置IP地址

nmcli con mod eth0 ipv4.addresses <ip_address>/<subnet_mask> ipv4.gateway <gateway_address>

其中，hostname 为服务器的主机名，<ip_address>为服务器的IP地址，<subnet_mask>为子网掩码，<gateway_address>为网关地址。

配置完成后，可以使用以下命令验证主机名和IP地址是否正确：

hostname
ip addr

（5）配置DNS服务器，在每台服务器上配置DNS服务器，可以使用以下命令进行配置：

echo "nameserver <dns_server_address>" | sudo tee /etc/resolv.conf

其中，<dns_server_address>为DNS服务器的IP地址。

配置完成后，可以使用以下命令测试DNS服务器是否设置成功：

nslookup www.baidu.com

（6）关闭防火墙和SELinux，为了避免防火墙和SELinux对CDH搭建的影响，需要关闭防火墙和SELinux。可以使用以下命令进行关闭：

systemctl stop firewalld
systemctl disable firewalld
sed -i 's/SELINUX=enforcing/SELINUX=disabled/g' /etc/selinux/config
setenforce 0

2、安装和配置Hadoop
（1）配置Hadoop环境，在每台服务器上编辑/etc/hadoop/conf/hadoop-env.sh文件，设置JAVA_HOME和HADOOP_HOME等环境变量，例如：

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk
export HADOOP_HOME=/usr/lib/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

（2）配置Hadoop核心文件，在每台服务器上编辑/etc/hadoop/conf/core-site.xml文件，添加以下配置：

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://<namenode_hostname>:8020</value>
  </property>
</configuration>

其中，<namenode_hostname>为Hadoop的NameNode主机名。

（3）配置Hadoop HDFS，在每台服务器上编辑/etc/hadoop/conf/hdfs-site.xml文件，添加以下配置：

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>3</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/data/dfs/nn</value>
  </property>

（4）配置Hadoop YARN，在每台服务器上编辑/etc/hadoop/conf/yarn-site.xml文件，添加以下配置：

<configuration>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value><resourcemanager_hostname></value>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
  </property>
</configuration>

其中，<resourcemanager_hostname>为Hadoop的ResourceManager主机名。

（5）格式化HDFS，在其中一台服务器上执行以下命令格式化HDFS：
hdfs namenode -format

（6）启动Hadoop，在每台服务器上执行以下命令启动Hadoop：

systemctl start hadoop-hdfs-namenode
systemctl start hadoop-hdfs-datanode
systemctl start hadoop-yarn-resourcemanager
systemctl start hadoop-yarn-nodemanager
systemctl start hadoop-mapreduce-historyserver

可以使用以下命令检查Hadoop是否启动成功：
jps
应该会输出以下进程：
NameNode
SecondaryNameNode
DataNode
ResourceManager
NodeManager
JobHistoryServer

3、安装和配置HBase
1）配置HBase环境，在每台服务器上编辑/etc/hbase/conf/hbase-env.sh文件，设置JAVA_HOME和HBASE_HOME等环境变量，例如：

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk
export HBASE_HOME=/usr/lib/hbase
export PATH=$PATH:$HBASE_HOME/bin

（2）配置HBase，在每台服务器上编辑/etc/hbase/conf/hbase-site.xml文件，添加以下配置：

<configuration>
  <property>
    <name>hbase.rootdir</name>
    <value>hdfs://<namenode_hostname>:8020/hbase</value>
  </property>
  <property>
    <name>hbase.zookeeper.quorum</name>
    <value><zookeeper_hostname_1>,<zookeeper_hostname_2>,<zookeeper_hostname_3></value>
  </property>
</configuration>