大数据学习(1)-Hadoop

这篇具有很好参考价值的文章主要介绍了大数据学习(1)-Hadoop。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

&&大数据学习&&

🔥系列专栏: 👑哲学语录: 承认自己的无知,乃是开启智慧的大门 💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博>主哦🤞


Hadoop是一个开源的分布式计算平台,用于处理大规模数据集。Hadoop的核心组件包括:

HDFS(Hadoop Distributed File System)

MapReduce和Yarn。

Hadoop的运行机制基于分布式计算的概念,即将大规模的计算任务分解为多个小任务,并在多台计算机上并行处理。Hadoop集群由多个节点组成,包括一个NameNode和若干个DataNode。NameNode负责管理文件系统的元数据,而DataNode负责存储实际的数据。

Hadoop的运行过程包括以下几个步骤:

  1. 数据准备:将待处理的数据上传到HDFS中,可以使用Flume、Sqoop等工具将数据从其他系统导入到HDFS。
  2. 编写MapReduce程序:使用Java语言编写MapReduce程序,将计算任务划分为Map阶段和Reduce阶段。
  3. 提交任务:将编写好的MapReduce程序提交到Yarn中,Yarn负责资源的分配和管理。
  4. 任务执行:Yarn将MapReduce任务分解为多个小任务,并在集群中的不同节点上并行执行。在Map阶段,数据被划分为若干个小块,并在不同节点上进行处理;在Reduce阶段,Map阶段的输出被收集和汇总,以生成最终的结果。
  5. 结果输出:处理完成后,结果将输出到HDFS中,可以使用Hive、HBase等工具进行结果查询和分析。

在运行过程中,Hadoop涉及到了多个技术栈,包括:

  1. HDFS:Hadoop分布式文件系统,用于存储大规模数据。
  2. MapReduce:Hadoop的核心计算模型,用于处理大规模数据集。
  3. Yarn:Hadoop的资源管理器,用于管理和分配集群中的计算资源。
  4. Hive:基于Hadoop的数据仓库工具,提供了类似于SQL的查询语言。
  5. HBase:基于Hadoop的分布式数据库,用于存储非结构化和半结构化数据。
  6. Flume:Hadoop的数据采集工具,用于将数据从不同的数据源导入到HDFS中。
  7. Sqoop:Hadoop的数据导入导出工具,用于在关系型数据库和Hadoop之间进行数据迁移。

 文章来源地址https://www.toymoban.com/news/detail-726422.html

Hdfs存储:

HDFS中每个数据节点可以存储的数据量取决于节点的硬盘大小。对于单个节点,其存储容量为磁盘容量减去配置文件(hdfs-site.xml)中的参数值dfs.datanode.du.reserved。对于一个集群,其总容量取决于所有DataNode节点的硬盘大小之和。但是需要注意的是,还需要考虑集群的备份数量。例如,如果备份数量为3,集群总容量为3TB,则实际可以存储的文件容量为1TB。

大数据学习(1)-Hadoop,大数据

大数据技术栈非常多,但是并不需要全部都懂,了解即可,我也是刚刚开始学习不久,欢迎大家的批评指正。之后会持续更新大数据了!

 

到了这里,关于大数据学习(1)-Hadoop的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大数据技术之Hadoop学习(七)——Hive数据仓库

    目录 素材 一、数据仓库简介 1、数据仓库的认识 (1)数据仓库是面向主题的。 (2)数据仓库是随时间变化的。 (3)数据仓库相对稳定 (4)OLTP和OLAP 2、数据仓库的结构 (1)数据源 (2)数据存储及管理 (3)OLAP 服务器 (4)前端工具 3、数据仓库的数据模型 (1)星状模

    2024年02月17日
    浏览(42)
  • 【大数据学习篇2】Hadoop集群安装

    IP 机器名 root密码 用户名 密码 进程 192.168.20.44 master hd hd hd namenode,ResourceManager,SecondaryNameNode 192.168.20.45 slave01 hd hd hd datanode,NodeManager 192.168.20.46 slave02 hd hd hd datanode,NodeManager 密码统一设置成:hd 或者 123456 设置网卡为静态的地址 Linux常用的命令 使用vi编辑器,在/etc/profile增

    2024年02月04日
    浏览(49)
  • 大数据学习第十二天(hadoop概念)

    1、服务器之间数据文件传递         1)服务器之间传递数据,依赖ssh协议         2)http协议是web网站之间的通讯协议,用户可已通过http网址访问到对应网站数据         3)ssh协议是服务器之间,或windos和服务器之间传递的数据的协议。支持shell指令的传输         4)在

    2024年04月14日
    浏览(40)
  • 大数据学习1 - hadoop环境搭建及操作

    目录 目录 一、什么是大数据? 二、什么是hadoop? 1.Hadoop核心组件 2.HDFS架构 3.MapReduce  3.Yarn架构  ​编辑  三、Hadoop的集群模式 1.完全分布模式  2.伪分布模式 3.独立模式 四、Hadoop创建伪分布式模式 1.获取安装Hadoop 2.修改Hadoop配置文件 3.启动hadoop 4.运行WerdCount测试 五、完全

    2024年02月03日
    浏览(46)
  • hadoop生态圈-- 个人笔记学习04 数据迁移

    数据迁移场景 冷热集群数据同步、分类存储 集群数据整体迁移 准实时同步 双备份 线上把集群切向B的同步集群 要素考量 bandwdith performance 1… 单机?分布式? data-increment 可以配合HDFS快照等技术实现增量数据同步。 syncable .数据指定周期内未完成同步,下一周期开始,无法做

    2024年02月12日
    浏览(48)
  • 0201hdfs集群部署-hadoop-大数据学习

    下面我们配置下单namenode节点hadoop集群,使用vmware虚拟机环境搭建。vmware虚拟机的配置,在下面链接2有,或者自行查阅文档。hadoop安装包可到官网下载,当前相关软件环境如下: 软件 版本 说明 hadoop 3.3.4 jar包 vmware 15.5 虚拟机 centos 7.6 服务器操作系统 xshell 6 远程连接 jdk 1.8

    2024年02月11日
    浏览(45)
  • 0401hive入门-hadoop-大数据学习.md

    Apache Hive是一个开源的数据仓库查询和分析工具,最初由Facebook开发,并后来捐赠给Apache软件基金会。Hive允许用户使用SQL语言来查询和分析存储在Hadoop分布式文件系统(HDFS)中的大规模数据集。它的设计目标是使非技术用户能够轻松地在Hadoop集群上执行数据查询和分析任务,

    2024年02月09日
    浏览(43)
  • 大数据学习02-Hadoop分布式集群部署

    操作系统:centos7 软件环境:jdk8、hadoop-2.8.5 1.下载VMware,建议支持正版 2.安装到Widows目录下任意位置即可,安装目录自定义。打开VMware,界面如下: 3.创建虚拟机 创建虚拟机—选择自定义 这一步按照默认的配置就好 选择系统,安装程序光盘映像文件iso,这里需要下载cenos镜像

    2024年02月16日
    浏览(60)
  • Hadoop学习:深入解析MapReduce的大数据魔力之数据压缩(四)

    压缩的优点:以减少磁盘IO、减少磁盘存储空间。 压缩的缺点:增加CPU开销。 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 1)压缩算法对比介绍 2)压缩性能的比较 压缩方式选择时重点考虑:压缩/解压缩速度、压缩率(压缩后存储大小)、压缩后是否 可以

    2024年02月12日
    浏览(42)
  • 0202hdfs的shell操作-hadoop-大数据学习

    以下命令执行默认配置了hadoop的环境变量,且使用新命令。 一键启停脚本 独立进程启停 2.1 HDFS文件系统基本信息 HDFS作为分布式存储的文件系统,有其对数据的路径表达式。如果熟悉Linux文件系统,可以对比学习。 HDFS同Linux系统一样,均是以/作为根目录的组织形式 如何区分

    2024年02月10日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包