❤️❤️❤️关于Hadoop的初体验

这篇具有很好参考价值的文章主要介绍了❤️❤️❤️关于Hadoop的初体验。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

👉👉首先我们需要知道Hadoop的基本概念,究竟是什么,还要了解可以用他来做什么,让我们一起接下来学习:

一、Hadoop是什么?

Hadoop是一个由Apache基金会所开发的分布式系统基础架构, 是一个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题,是大数据技术中的基石。

Hadoop以一种可靠、高效、可伸缩的方式进行数据处理,用户可以在不了解分布式底层细节的情况下,开发分布式程序,用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。

二、Hadoop能解决什么问题?

1、海量数据存储

HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(High throughput)来访问数据,适合那些有着超大数据集(large data set)的应用程序,它由n台运行着DataNode的机器组成和1台(另外一个standby)运行NameNode进程一起构成。每个DataNode 管理一部分数据,然后NameNode负责管理整个HDFS 集群的信息(存储元数据)。

2、资源管理,调度和分配

Apache Hadoop YARN(Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统和调度平台,可为上层应用提供统 一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨 大好处。

三、了解集群,分布式的概念🧐

什么是集群,什么是分布式?(多台服务器参与运行)

集群: 多台服务器共同完成相同的业务,就是一个集群.

分布式: 多台服务器共同完成不同的业务就是分布式.


安装部署层面说

  • 单机部署

    • 使用一台服务器安装所有服务

  • 集群部署

    • 使用多台服务器安装对应分布式服务

四、虚拟机的拷贝

1、纯净的虚拟机node01在Vmware中

(1.)右键node01----->管理----->克隆  

❤️❤️❤️关于Hadoop的初体验,hadoop,大数据,分布式

(2)再修改机器名称即可

五、基础环境的搭建

1.主机名称修改: /etc/hostname

echo node1 > /etc/hostname

2.修改域名解析文件: /etc/hosts

后续搭建集群时使用域名访问电脑

在平时使用www.baidu.com域名访问时,最终会同dns服务器将域名解析为ip地址访问

echo '192.168.88.100 node1.itcast.cn node1' >> /etc/hosts
echo '192.168.88.101 node2.itcast.cn node2' >> /etc/hosts
echo '192.168.88.102 node3.itcast.cn node3' >> /etc/hosts

3.关闭防火墙

 systemctl stop firewalld.service

4.禁用防火墙

 systemctl disable firewalld.service

5.关闭SELinux: /etc/selinux/config

sed -i "s/enforcing/disabled/" /etc/selinux/config

6.时钟同步

ntpdate ntp4.aliyun.com
​
# 内部服务器不允许上网,内部搭建一个时钟服务器   同步内部
ntpdate  192.168.88.3

7.设置静态ip地址: /etc/sysconfig/network-scripts/ifcfg-ens33

sed -i "s/dhcp/static/" /etc/sysconfig/network-scripts/ifcfg-ens33
echo 'IPADDR="192.168.88.100"' >>  /etc/sysconfig/network-scripts/ifcfg-ens33
echo 'PREFIX="24"' >>  /etc/sysconfig/network-scripts/ifcfg-ens33
echo 'GATEWAY="192.168.88.2"'  >>  /etc/sysconfig/network-scripts/ifcfg-ens33
echo 'DNS1="8.8.8.8"'  >>  /etc/sysconfig/network-scripts/ifcfg-ens33
​
sed -i "s/dhcp/static/" /etc/sysconfig/network-scripts/ifcfg-ens33
echo 'IPADDR="192.168.88.101"' >>  /etc/sysconfig/network-scripts/ifcfg-ens33
echo 'PREFIX="24"' >>  /etc/sysconfig/network-scripts/ifcfg-ens33
echo 'GATEWAY="192.168.88.2"'  >>  /etc/sysconfig/network-scripts/ifcfg-ens33
echo 'DNS1="8.8.8.8"'  >>  /etc/sysconfig/network-scripts/ifcfg-ens33
​
sed -i "s/dhcp/static/" /etc/sysconfig/network-scripts/ifcfg-ens33
echo 'IPADDR="192.168.88.102"' >>  /etc/sysconfig/network-scripts/ifcfg-ens33
echo 'PREFIX="24"' >>  /etc/sysconfig/network-scripts/ifcfg-ens33
echo 'GATEWAY="192.168.88.2"'  >>  /etc/sysconfig/network-scripts/ifcfg-ens33
echo 'DNS1="8.8.8.8"'  >>  /etc/sysconfig/network-scripts/ifcfg-ens33

8.创建软件安装目录

mkdir /export
cd /export
mkdir data logs server software

9.重启系统

init 6

六、Java环境安装

1.java文件上传解压: jdk-8u65-linux-x64.tar.gz

注意:上传文件位置为 /export/server目录

cd /export/server
tar zxvf /export/server/jdk-8u65-linux-x64.tar.gz

2.修改环境变量

echo 'export JAVA_HOME=/export/server/jdk1.8.0_241' >> /etc/profile
echo 'export PATH=$PATH:$JAVA_HOME/bin' >> /etc/profile
echo 'export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar' >> /etc/profile
source /etc/profile

3.验证

java -version

七、数据导论[了解]

日常生活中不断产生各类数据,通过对各类数据的分析,得到用户的行为习惯,发现用户的数据价值

八、大数据诞生[了解]

随着用户数据增多传统数据处理方式无法满足海量数据处理的需求,此时引入分布式技术

将海量数据进行分布式的存储,计算,资源调度

可以统一管理多台服务器进行存储和计算,把多台服务器当成一个整体

使用hadoop实现分布式存储,计算和资源调度

九、大数据概述[了解]

大数据主要解决海量数据的存储和计算

海量数据

excel KB MB 1MB=1024KB

mysql GB TB 1GB =1024 MB 1TB =1024GB

大数据 PB,EB(海量数据) 1PB=1024TB

KB < MB < GB < TB < PB < EB < ZB < YB

大数据的特点

  • 数据量大

  • 数据种类多

    • 结构化数据

    • 半结构化数据

      • xml

      • json

    • 非结构数据

      • 文本数据

  • 数据低价值密度

    • 分析用户的消费习惯

      • 用户注册基本信息 姓名,性别,年龄 1个

      • 用户的购买信息 订单数据 手机,2023-10-22 100个

      • 用户浏览信息 浏览哪些商品 100个

      • 用户访问信息 访问网站时间,地点,设备 100000条

      • 1000201条数 有价值的数据200条

  • 增长速度快

    • 每天都会产生大量数据

  • 数据结果质量高

    • 对海量数据结果更接近真实情况

十一、大数据软件生态[了解]

Welcome to The Apache Software Foundation!

存储:Apache Hadoop HDFS、Apache HBase、Apache Kudu、云平台

计算:Apache Hadoop MapReduce、Apache Spark、Apache Flink

传输:Apache Kafka、Apache Pulsar、Apache Flume、Apache Sqoop

十二、Apache Hadoop概述[了解]

Hadoop的功能组件

HDFS分布式文件存储系统: 负责海量数据的存储工作

MapReduce分布式计算框架: 负责海量数据的计算工作

Yarn分布式资源调度工具: 负责分布式集群的资源调度工作

Hadoop发展

创始人: 道格·卡丁

Hadoop发行时间: 2008年

hadoop的发展受谷歌的三篇论文影响, 后被称为大数据发展的三驾马车

Hadoop版本

社区版: 开源免费

  • 优点: 更新速度快,技术新

  • 缺点: 兼容性差不稳定

商业版: CDH 将所有大数据相关组件都重写了一遍并进行了精细测试解决了兼容性问题和稳定性问题

  • 优点: 兼容稳定性好

  • 确定: 技术旧,收费

注意: 在企业级开发中我们使用的大多是商业版hadoop, CDH版本Hadoop在6.2.4版本之前是不收费的.

十三、为什么需要分布式存储[了解]

数据体量过大,存储在同一台服务器上空间不足,所以需要对于服务器进行扩展,多台服务共同存储超大文件

存储原理就是将大文件进行分割,分割后,将数据存储在不同的服务器内部

此时不仅可以提供多台服务器的存储空间,同时可以增加服务器的读写效率,cpu,内存,网络带宽等.文章来源地址https://www.toymoban.com/news/detail-848745.html

到了这里,关于❤️❤️❤️关于Hadoop的初体验的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大数据学习02-Hadoop分布式集群部署

    操作系统:centos7 软件环境:jdk8、hadoop-2.8.5 1.下载VMware,建议支持正版 2.安装到Widows目录下任意位置即可,安装目录自定义。打开VMware,界面如下: 3.创建虚拟机 创建虚拟机—选择自定义 这一步按照默认的配置就好 选择系统,安装程序光盘映像文件iso,这里需要下载cenos镜像

    2024年02月16日
    浏览(63)
  • 《Hadoop大数据技术》实验报告(1)Hadoop的伪分布式安装和配置

    《Hadoop大数据技术》实验报告(1) 班级 学号 姓名 Hadoop的伪分布式安装和配置 一、实验目的 1、理解Hadoop伪分布式的安装过程; 2、学会JDK的安装和SSH免密码配置; 3、学会Hadoop的伪分布式安装和配置。 二、实验内容 在linux平台中安装Hadoop,包括JDK安装、SSH免密码配置和伪分

    2023年04月23日
    浏览(67)
  • 大数据Hadoop完全分布式及心得体会

    Hadoop是一个 分布式系统 基础技术框架,利用hadoop,开发用户可以在不了解分布式底层细节的情况下,开发分布式程序,从而达到充分利用集群的威力高速运算和存储的目的;而在本学期中,我们的专业老师带我们学习了Hadoop框架中最 核心 的设计: MapReduce 和 HDFS 。 MapReduc

    2024年02月08日
    浏览(47)
  • 大数据 | 实验零:安装 Hadoop 伪分布式系统

    👀 前言 :本篇是个人配置环境的总结,基于指导书,补充了许多在配置过程中出现的问题的解决细节。希望能帮到你😄。 Vmware workstation pro 16 Ubuntu 20.04 JDK 1.8 Hadoop 3.2.2 下边资源是本篇博客会用到的相关文件 (建议直接下载,相关代码直接对应的下述文件, 下载完先不要动

    2023年04月17日
    浏览(49)
  • (大数据开发随笔9)Hadoop 3.3.x分布式环境部署——全分布式模式

    分布式文件系统中,HDFS相关的守护进程也分布在不同的机器上,如: NameNode守护进程,尽可能单独部署在一台硬件性能较好的机器中 其他的每台机器上都会部署一个DataNode进程,一般的硬件环境即可 SecondaryNameNode守护进程最好不要和NameNode在同一台机器上 守护进程布局 Name

    2023年04月16日
    浏览(60)
  • hadoop完全分布式集群搭建(超详细)-大数据集群搭建

    本次搭建完全分布式集群用到的环境有: jdk1.8.0 hadoop-2.7.7 本次搭建集群所需环境也给大家准备了,下载链接地址:https://share.weiyun.com/dk7WgaVk 密码:553ubk 本次完全分布式集群搭建需要提前建立好三台虚拟机,我分别把它们的主机名命名为:master,slave1,slave2 一.配置免密登陆 首先

    2024年02月10日
    浏览(52)
  • 分布式计算 第五章 大数据多机计算:Hadoop

    5.2.1 从硬件思考大数据 从硬件角度看,一台或是几台机器似乎难以胜任大数据的存储和计算工作。 • 大量机器的集群构成数据中心 • 使用高速互联网络对大量机器进行连接以确保数据传递 • 综合考量数据中心的散热问题、能耗问题,以及各方面成本 • 集群中硬件发生故

    2024年02月05日
    浏览(52)
  • 大数据内容分享(九):Hadoop-生产集群搭建(完全分布式)

    目录 Hadoop运行模式——完全分布式 1、准备3台虚拟机(关闭防火墙、配置静态IP 和 主机名称) 2、安装JDK 和 Hadoop 并配置JDK和Hadoop的环境变量 3、配置完全分布式集群 4、集群配置 1)集群部署规划 2)配置文件说明 3)配置集群 5、集群启动 与 测试 1)workers的配置 2)启动集

    2024年02月21日
    浏览(100)
  • Hadoop大数据从入门到实战(二)分布式文件系统HDFS

    头歌实践教学平台 教学课堂 大数据从入门到实战 - 第2章 分布式文件系统HDFS 任务描述 本关任务:使用 Hadoop 命令来操作分布式文件系统。 编程要求 在右侧命令行中启动 Hadoop ,进行如下操作。 在 HDFS 中创建 /usr/output/ 文件夹; 在本地创建 hello.txt 文件并添加内容:“ HDFS的

    2024年02月12日
    浏览(46)
  • 在macOS上安装Hadoop: 从零到分布式大数据处理

    要在 macOS 上安装 Hadoop,您可以按照以下步骤进行操作: 前往Hadoop的官方网站下载最新版本的Hadoop。选择一个稳定的发行版本并下载压缩文件(通常是.tar.gz格式)。 将下载的 Hadoop 压缩文件解压缩到您选择的目录中。可以使用终端执行以下命令: 请将 hadoop-version 替换为您下

    2024年02月06日
    浏览(57)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包