学会大数据基础,一篇就够了

这篇具有很好参考价值的文章主要介绍了学会大数据基础,一篇就够了。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

第 2 章-大数据处理架构 Hadoop

1 hadoop 生态系统

1 Hadoop的三大组件

1) HDFS分布式文件管理系统
  • 超大数据存储
  • 流式存储
2) MapRuduce分布式并行编程模型
3) Yarn 资源管理和调度器

2 其他组件

4 HBase
  • 实时读写
  • 非关系型数据库
  • 分布式列式数据库
  • 基于HDFS数据存储
5 Hive
  • 数据仓库
  • SQL语句转换为mapreduce任务
6 Flume
  • 日志采集聚合
7 Sqoop
  • 传统数据库的数据导入到hadoop中

2 hadoop特性

1 高容错性 冗余存储策略
2 支持多语言编程
  • 基于java开发,后在各种环境都能运行
3  高可扩展性
  • 多个datanode
4 成本低

2 伪分布式安装

1 伪分布是什么?

名称节点和数据节点在同一台机器上,采用HDFS文件系统

2 了解虚拟机 

再本虚拟机中,桌面的路径是/home/hadoop/Desktop

学会大数据基础,一篇就够了,hadoop,hbase,hdfs

3 修改文件夹名 mv命令

#mv还可以移动路径

sudo mv ./filename ./hadoop

4 解压命令 tar -zxf

tar -zxf /home/hadoop/Downloads/hadoop-3.1.3.tar.gz -C /home/hadoop/Desktop

5 伪分布式需要配置core-site.xml 和hdfs-site.xml文件

core-site.xml:配置hadoop的核心文件

hdfs-site.xml:配置namenode和datanode进程

6 初始化hadoop集群

hadoop namenode -format 是一个 Hadoop 命令,用于格式化 Hadoop 分布式文件系统(HDFS)的 NameNode。

7 启动所有进程 

start-all.sh

8 启动shell 哪个命令可以用来操作HDFS文件

  • hadoop fs :适用于任何文件系统
  • hadoop dfs/hdfs dfs:只适用于hdfs文件系统
  • 没有hdfs fs这种东西///

第 3 章-分布式文件系统 HDFS

3.1.1 计算机集群结构

分布式文件系统将文件分布存储到多个计算机节点

3.1.2 分布式文件系统的结构

分布式文件系统由2部分组成

1 主节点 Namenode(名称节点)

2 从节点 Datanode(数据节点)

3.2 HDFS 简介

1 HDFS目的

  • 大数据集
  • 流数据读写
  • 廉价硬件设备
  • 跨平台兼容

2 HDFS缺点

  • 不支持低延迟数据
  • 不支持多用户访问修改

3.3 HDFS 的相关概念

1 块

块是存储单位,默认64MB

1 好处
1 支持大规模存储

一个大规模文件以块为单位存储,eg:一个文件=5个块=机器A1+B1+C1+D1+E1

2 备份 提高容错性

1个块既可以出现在机器A,也可以冗余存储在机器B

2 HDFS组件

1 NameNode
1 作用
  • 存储元数据
  • 记录文件、block、datanode映射关系
  • 名称节点的数据都保存在内存
  • 管理文件系统名称和维系客户端对文件的访问
2 Namenode两个核心结构
1 Fsimage

维护文件树所有文件

2 EditLog
  • 在hdfs运行过程间,EditLog会变大
  • 记录文件的增删改查重命名
2 DateNode
1 作用
  • 保存实际数据块/具体文件内容
  • 通常将文件内容保存到磁盘
2 心跳机制

数据节点定期会给名称节点发送心跳信息

3 SecondaryNamenode
  • 保存名称节点元数据的备份
  • secondarynamenode每隔一段时间请求名称节点停止EditLog文件
  • 将editlog与fsimage合并,将合并好的fsimage上传到名称节点上

3 启动hdfs命令

start-hdfs.sh
start-dfs.sh

3.5.1 数据的冗余存储

1 采用多副本冗余存储的优势包含

  • 检查数据错误
  • 加速存储速度
  • 保证数据可靠(容错性) 一个节点错误,其他节点有备份

3.5.2 数据存取策略

1 数据存放

同一个数据块复制3次得到3个副本!

保证实现机架坏了,其他机架节点实现或机架内节点故障,其他节点替代

1 第一个副本

挑一个磁盘不太满、CPU不太忙的节点

2 第二个副本

不和第一个副本在同一机架的节点

3 第三个副本

与第一个副本机架相同,但节点不同

2 数据读取

  • 优先选择与客户端同一机架内的数据副本进行读取,除此以外再随机选择副本读取

第 4 章-分布式数据库 HBase

4.1.2 HBase 简介

1 HBase的特性

面对列/高可靠性/高性能/高可伸缩性
  • 高可靠性:通过在多个节点上存储数据的多个副本,以及支持自动的数据恢复机制,HBase能够应对节点故障或其他异常情况。
  • 高性能: HBase具有快速的读写性能,特别适用于需要对大规模非结构化和半结构化数据进行快速检索和分析的场景。
  • 面向列: HBase是一种列存储数据库,以列为基本存储单元,而不是行。这种存储方式有助于高效地进行大规模数据的读取和检索。
  • 可伸缩性: HBase的设计允许用户通过简单地增加集群中的节点数量来实现水平扩展,以满足不断增长的数据存储需求。

4.1.3 HBase 与传统关系数据库的对比分析

1 数据类型

将数据存储为未经解释的字符串

2 数据操作

没有表与表的联系,只有简单的增删改查

3 存储模式

基于列族存储

4 索引

只有行键一个索引

5 更新

每次更新修改新值,不会删除掉原来的文件

6 可伸缩性

关系型数据库很难实现纵向扩展文章来源地址https://www.toymoban.com/news/detail-766784.html

4.3.1 数据模型概述

  • hbase是一个稀疏(每个单元格不一定有数据),多维度
  • 索引是行键、列族、列限定符和时间戳

4.3.2 数据模型的相关概念

4.3.3 数据坐标

4.4.3 Region 的定位

4.5.2 Region 服务器的工作原理

到了这里,关于学会大数据基础,一篇就够了的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 【多线程基础】 线程安全及解决方案(看这一篇就够了)

    【多线程基础】 线程安全及解决方案(看这一篇就够了)

    🎉🎉🎉 点进来你就是我的人了 博主主页: 🙈🙈🙈戳一戳,欢迎大佬指点! 欢迎志同道合的朋友一起加油喔 🦾🦾🦾 目录 前言 1. 造成线程不安全的原因有哪些呢? 1.1什么是原子性 1.2什么是内存可见性 1.3共享变量可见性实现的原理  1.4 什么是指令重排序 2.解决线程安全

    2024年02月02日
    浏览(7)
  • 【Linux】shell编程基础(超详细,入门看这一篇就够了)

    【Linux】shell编程基础(超详细,入门看这一篇就够了)

    🥇🥇【Liunx学习记录篇】🥇🥇 篇一:【Linux】VMware安装unbuntu18.04虚拟机-超详细步骤(附镜像文件) 篇二:【Linux】ubuntu18.04系统基础配置及操作 篇三:【Linux】用户与组的操作详细介绍 篇四:【Linux】管理Linux文件权限属性介绍 篇五:【Linux】使用数字表示法和文件表示法修

    2024年02月04日
    浏览(29)
  • 鸿蒙系统(非常详细)从零基础入门到精通,看完这一篇就够了

    鸿蒙系统(非常详细)从零基础入门到精通,看完这一篇就够了

    我们可以从以下三个主要方面进行概述: 系统定义、技术特征、系统安全 。 目录 鸿蒙系统概述(HarmonyOS) 系统定义 系统定位 技术架构 内核层 系统服务层 框架层 应用层 技术特性 硬件互助,资源共享 一次开发,多端部署 统一OS,弹性部署 系统安全 正确的人 正确的设备

    2024年02月12日
    浏览(8)
  • MySQL数据库期末复习--这一篇就够了

    MySQL数据库期末复习--这一篇就够了

    目录 一、前言 二、一些基本概念 1、时态数据库 2、分布式数据库 3、面向对象数据库 4、移动数据库 三、数据库的创建 1、工具 2、基本需求 3、根据上述需求画出E-R图 4、将E-R图转换成关系模式 5、建立数据表 6、每张数据表的结构 四、视图 1、创建视图 2、查看视图  3、更

    2024年02月09日
    浏览(9)
  • 网络安全(非常详细)从零基础入门到精通,看完这一篇就够了。

    网络安全(非常详细)从零基础入门到精通,看完这一篇就够了。

    前言: 1.这是一条坚持的道路,三分钟的热情可以放弃往下看了. 2.多练多想,不要离开了教程什么都不会了.最好看完教程自己独立完成技术方面的开发. 3.有时多google,baidu,我们往往都遇不到好心的大神,谁会无聊天天给你做解答. 4.遇到实在搞不懂的,可以先放放,以后再来解决. 基本

    2024年02月06日
    浏览(9)
  • (2023版)零基础入门网络安全/Web安全,收藏这一篇就够了

    (2023版)零基础入门网络安全/Web安全,收藏这一篇就够了

    由于我之前写了不少网络安全技术相关的文章和回答,不少读者朋友知道我是从事网络安全相关的工作,于是经常有人私信问我: 我刚入门网络安全,该怎么学? 要学哪些东西? 有哪些方向? 怎么选? 这一行职业前景如何? 废话不多说,先上一张图镇楼,看看网络安全有

    2024年02月07日
    浏览(9)
  • 大数据超全面入门干货知识,看这一篇就够了!

    大数据超全面入门干货知识,看这一篇就够了!

    随着科技的飞速发展和互联网的普及,大数据已成为 21 世纪最炙手可热的话题之一。它像一面神秘的面纱,覆盖着现实世界,隐藏着无穷无尽的可能性。今天将带领大家一起揭开大数据这个未知世界的神秘面纱,带你了解大数据的概念、应用以及大数据相关组件。 大数据是

    2024年04月26日
    浏览(17)
  • Flutter数据库操作看这一篇就够了

    Flutter数据库操作看这一篇就够了

    Flutter是一种跨平台的移动应用程序开发框架,支持使用多种类型的数据库进行数据存储和管理。Flutter中使用数据库通常需要依赖第三方库来实现,以下是一些常用的Flutter数据库库: sqflite:是一个SQLite数据库的Flutter插件,提供了类似于Android中SQLite的API接口,支持基本的CR

    2024年02月06日
    浏览(10)
  • 黑客入门教程(非常详细)从零基础入门到精通,看完这一篇就够了

    黑客入门教程(非常详细)从零基础入门到精通,看完这一篇就够了

    想要成为黑客,却苦于没有方向,不知道从何学起,下面这篇 黑客入门 教程可以帮你实现自己的黑客梦想,如果想学,可以继续看下去,文章有点长,希望你可以耐心看到最后 1、 Web安全相关概念(2周)  ·熟悉基本概念(SQL注入、上传、XSS、 、CSRF、一句话木马等)。 通过

    2024年02月03日
    浏览(10)
  • Spark入门教程(非常详细)从零基础入门到精通,看完这一篇就够了

    Spark入门教程(非常详细)从零基础入门到精通,看完这一篇就够了

    文章目录 引言 1. Spark 基础 1.1 Spark 为何物 1.2 Spark VS Hadoop 1.3 Spark 优势及特点 1.3.1 优秀的数据模型和丰富计算抽象 1.3.2 完善的生态圈-fullstack 1.3.3 spark的特点 1.4 Spark 运行模式 2. Spark Core 2.1 RDD详解 2.1.1 RDD概念 2.1.2 RDD属性 2.1.3 RDD API 2.1.3.1 RDD 的创建方式 2.1.3.2 RDD 算子 2.1.4 RDD

    2024年02月04日
    浏览(26)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包