什么是大数据?Hadoop概述、Hadoop基础

这篇具有很好参考价值的文章主要介绍了什么是大数据?Hadoop概述、Hadoop基础。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、大数据概论

1.1 大数据的概念

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。

通俗来说就是海量的数据,但是也可泛指大数据技术、大数据行业、大数据应用等。

大数据技术,主要解决海量数据的存储海量数据的分析计算问题。

1.2 大数据的特点

  • 海量数据(Volume 大量)
  • 数据更新快(Velocity 高速)
  • 数据类型多样(Variety 多样):结构化数据(数据库、文本数据)和非结构化数据(网络日志、音频、视频、图片、地理位置信息等)
  • 价值密度低(Value 低价值密度)

1.3 大数据的技术

  • 数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
  • 数据存取:关系数据库、NOSQL、SQL等
  • 基础架构:云存储、分布式文件存储等
  • 数据处理:
  • 统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等
  • 数据挖掘:分类、估计、预测、相关性分组或关联规则、聚类、描述和可视化、复杂数据类型挖掘
  • 模型预测:预测模型、机器学习、建模仿真
  • 结果呈现:云计算、标签云、关系图等

二、Hadoop与大数据生态

2.1 Hadoop概念

什么是大数据?Hadoop概述、Hadoop基础

狭义来说,Hadoop是一个由apache基金会开发的分布式系统基础架构。

广义来说,Hadoop通常指的是Hadoop生态圈。这个生态圈围绕着海量数据的存储和分析计算而发展。

2.2 Hadoop常见的发行版本

  • Apache Hadoop

    Apache版本最原始(最基础)的版本。
    官网:Apache Hadoop

  • Cloudera Hadoop

    Cloudera产品主要为CDH,Cloudera Manager,Cloudera Support;

    CDH是Cloudera的Hadoop发行版,完全开源,比Apache Hadoop在兼容性,安全性,稳定性上有所增强;

    Cloudera Manager是集群的软件分发及管理监控平台,可以在几个小时内部署好一个Hadoop集群,并对集群的节点及服务进行实时监控。

2.3 Hadoop的优势

  • 高可靠性:多数据副本
  • 高扩展性:节点扩展,在集群间分配任务
  • 高效性:Hadoop是并行工作的,以加快任务的处理速度
  • 高容错性:能够自动将失败的任务重新分配

2.4 Hadoop的组成

  • MapReduce:计算
  • Yarn:资源调度
  • HDFS:数据存储
  • Common:辅助工具

三、Hadoop组成架构阐述

3.1 HDFS

  1. NameNode (NN):

    存储文件的元数据,如文件名、文件目录结构、文件属性(生成时间、副本数、文件权限等),以及每个文件的快列表和块所在的DataNode等

  2. DataNode (DN):

    在本地文件系统存储文件块数据,以及块数据的校验。

  3. Secondary NameNode (2NN):

    每隔一段时间对NameNode元数据备份。

3.2 Yarn

  1. ResourceManager (RM):

    处理客户端的需求;

    监控NodeManager;

    启动或监控ApplicationMaster ;

    资源的分配与调度。

  2. NodeManager (NM):

    管理单个节点上的资源;

    处理来自ResourceManager上的命令;

    处理来自ApplicationMaster上的命令。

  3. ApplicationMaster (AM):

    负责数据的切分;

    为应用程序申请资源并分配给内部的任务;

    任务的监控与容错。

  4. Container:

    Container是Yarn中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等。

3.3 MapReduce

MapReduce将计算过程分为两个阶段:Map和Reduce

  1. Map阶段并行处理输入数据
  2. Reduce阶段对Map结果进行汇总

四、Hadoop目录结构

  1. bin目录:存放对Hadoop相关服务进行操作的脚本

  2. sbin目录:存放启动或停止Hadoop相关服务的脚本

    存放的是我们管理脚本的所在目录,重要是对hdfs和yarn的各种开启和关闭和单线程开启和守护

    脚本名称 作用
    hadoop-daemon.sh 通过执行hadoop命令来启动/停止一个守护进程(daemon);他可以单独开启一个进程也可以使用hadoop-daemons来开启多个进程,这样我们在某台机器挂掉时,就不用全部重新开启了
    start-all.sh 调用 start-dfs.sh和start-yarn.sh(官方不建议使用)
    stop-all.sh 调用 stop-dfs.sh和stop-yarn.sh(官方不建议使用)
    start-dfs.sh 启动NameNode、SecondaryNamenode、DataNode这些进程
    start-yarn.sh 启动ResourceManager,nodeManager 这些进程
    stop-dfs.sh 关闭NameNode、SecondaryNamenode、DataNode这些进程
    stop-yarn.sh 关闭ResourceManager、nodeManager 这些进程
    stop-balancer.sh 停止balancer
    stop-mapred.sh 停止MapReduce
  3. etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件

    文件名称 作用
    core-site.xml Hadoop核心全局配置文件,可以其他配置文件中引用该文件中定义的属性,如在hdfs-site.xml及mapred-site.xml中会引用该文件的属性;该文件的模板文件存在于$HADOOP_HOME/src/core/core-default.xml,可将模板文件复制到conf目录,再进行修改。
    hadoop-env.sh Hadoop环境变量
    hdfs-site.xml HDFS配置文件,该模板的属性继承于core-site.xml;该文件的模板文件存于$HADOOP_HOME/src/hdfs/hdfs-default.xml,可将模板文件复制到conf目录,再进行修改
    mapred-site.xml MapReduce的配置文件,该模板的属性继承于core-site.xml;该文件的模板文件存于$HADOOP_HOME/src/mapred/mapredd-default.xml,可将模板文件复制到conf目录,再进行修改
    yarn-site.xml Yarn的相关配置
  4. lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能),该目录下存放的是Hadoop运行时依赖的jar包

  5. share目录:存放Hadoop的依赖jar包、文档、和官方案例,Hadoop各个模块编译后的jar包所在的目录

五、Hadoop的运行模式

  1. 本地运行模式
  2. 完全分布式运行模式

【文有部分摘录,仅供学习分享使用。如侵联删】
),该目录下存放的是Hadoop运行时依赖的jar包
5. share目录:存放Hadoop的依赖jar包、文档、和官方案例,Hadoop各个模块编译后的jar包所在的目录

五、Hadoop的运行模式

  1. 本地运行模式
  2. 完全分布式运行模式

【文有部分摘录,仅供学习分享使用。如侵联删】文章来源地址https://www.toymoban.com/news/detail-480960.html

到了这里,关于什么是大数据?Hadoop概述、Hadoop基础的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 什么是大数据? 大数据有哪些应用场景?

    大数据技术的发展已经改变了我们对数据的认知和处理方式,大数据是一种新型的数据处理技术,它涵盖了多个领域,包括计算机科学、网络通信、算法理论、应用统计学等。简要来说,大数据可以定义为处理规模庞大复杂度高数据时所需的技术和方法。 大数据应用场景包括

    2024年02月09日
    浏览(52)
  • 你知道什么是大数据精准营销吗?

    这已经不是稀罕的话题了,大数据精准营销就是为了满足用户的个性化需求。 近年来在AI和媒体的带动下,大数据分析不断介入,各行各业都开始陆续依仗大数据营销这棵大树,以此来更加高效、便捷、智能、精准的服务于用户。 这就像追求恋人一样,投其所好方能成为眷属

    2024年02月11日
    浏览(41)
  • 【大数据】大数据概论与Hadoop

    目录 1.大数据概述 1.1.大数据的概念 1.2.大数据的应用场景 1.3.大数据的关键技术 1.4.大数据的计算模式 1.5.大数据和云计算的关系 1.6.物联网 2.Hadoop 2.1.核心架构 2.2.版本演进 2.3.生态圈的全量结构 大数据即字面意思,大量数据。那么这个数据量大到多少才算大数据喃?通常,当

    2024年04月10日
    浏览(43)
  • 什么是大数据?要从这三个层面来理解

    本篇内容较长,心急的小伙伴可以先看目录,直接定位到感兴趣的部分: 为啥都在说“大数据”,却很难解释清楚到底啥是“大数据”? 理论层面上的大数据 价值层面上的大数据 技术层面上的大数据 “大数据” 三个字已经被喊烂了, “大数据分析” 也经常被人提起。但

    2024年01月18日
    浏览(36)
  • Hadoop基础学习---2、Hadoop概述

    1.1 Hadoop是什么? 1、Hadoop是一个又Apache基金会所开发的分布式系统基础架构。 2、主要解决海量数据的存储和海量数据的分析计算。 3、广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。 1.2 Hadoop 优势(4高) 1、高可靠性:Hadoop底层维护多个数据副本,所有即使

    2024年02月05日
    浏览(37)
  • 用大数据“喂养”出来的AI模型ChatGPT 爆火是大数据、大算力、强算法的支撑,中国缺乏的什么?

    先来了解一下ChatGPT的基本情况 ChatGPT本质属于生成式人工智能,属于无监督或半监督的机器学习。 与之相关的还有Discriminative modeling区分式模型,区分式模型大多属于监督式学习。 生成性人工智能目前有两种主要的框架:GAN(Generative Adversarial Network )和GPT(Generative Pre-trai

    2023年04月20日
    浏览(92)
  • [架构之路-236]:目标系统 - 纵向分层 - 数据库 - 数据库系统基础与概述:三阶段模型(概念模型、逻辑模型、物理模型)、三级模式结构(外模式、模式、内模式)

    目录 一、数据库设计阶段性模型:概念模型、逻辑模型、物理模型 1.1 概念模型(Conceptual Model)- 业务模型: 实体:entity 属性或特征: key键值/码: 域(Domain): 实体类型:entity type 实体集合: 联系: 1.2 逻辑模型(Logical Model)- 内存模型(最核心): 1.3 物理模型(Phys

    2024年02月02日
    浏览(63)
  • 数据库系统概论 第1章绪论 1.1数据库的四个基本概念

    -        数据( Data ) -        数据库(Database,         DB ) -        数据库管理系统(DataBase Management System,         DBMS ) -        数据库系统(DataBase System,         DMS ) -        数据(Data)是数据库中存储的基本对象 -         数据的 定义 : 描述

    2024年01月19日
    浏览(46)
  • 什么是大语言模型?

    最近chagpt3|4非常火,导致业界很多人都觉得强人工智能很快就要取代我们这些工程师了,根据了解的确大语言模型建设的人工智能在未来的确可以取代一部分岗位,但是这是否意味着可以放慢脚步? 大语言模型 (LLM),全称:Large Language Models,LLMs, 代表着 AI 领域的重大进步,

    2024年02月04日
    浏览(32)
  • Hadoop入门篇01---基础概念和部署教程

    本文参考: Hadoop3.x教程 Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。 狭义上说,Hadoop指Apache这款开源框架,它的核心组件有: HDFS(分布式文件

    2024年02月06日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包