【云计算与大数据技术】大数据系统总体架构概述（Hadoop+MapReduce ）

10月前作者：showswoller 分类：Toy博客阅读(49) 违法举报

这篇具有很好参考价值的文章主要介绍了【云计算与大数据技术】大数据系统总体架构概述（Hadoop+MapReduce ）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一、总体架构设计原则

企业级大数据应用框架需要满足业务的需求，一是要求能够满足基于数据容量大，数据类型多，数据流通快的大数据基本处理需求，能够支持大数据的采集，存储，处理和分析，二是要能够满足企业级应用在可用性，可靠性，可扩展性，容错性，安全性和隐私性等方面的基本准则，三是要能够满足用原始技术和格式来实现数据分析的基本要求

满足大数据的V3要求

大数据容量的加载、处理和分析 - 要求大数据应用平台经过扩展可以支持 GB、TB、PB、EB甚至ZB规模的数据集

各种类型数据的加载、处理和分析 - 支持各种各样的数据类型,支持处理交易数据、各种非结构化数据、机器数据以及其他新数据结构

大数据的处理速度 - 在很高速度(GB/s)的加载过程中集成来自多个来源的数据

满足企业级应用的要求

高可扩展性 - 要求平台符合企业未来业务发展要求以及对新业务的响应，要求大数据架构具备支持调度和执行数百上千节点的负载工作流

高可用性 - 要求平台能够具备实时计算环境所具备的高可用性,在单点故障的情况下能够保证应用的可用性

安全性和保护隐私 - 系统在数据采集、存储、分析架构上保证数据、网络、存储和计算的安全性,具备保护个人和企业隐私的措施

开放性 - 要求平台能够支持计算和存储数以千计的、地理位置可能不同的、可能异构的计算节点

易用性

二、总体架构参考模型

基于Apache开源技术的大数据平台总体架构参考模型如图所示，大数据的产生、组织和处理主要是通过分布式分拣处理系统来实现的,主流的技术是 Hadoop+ MapReduce

其中Hadoop的分布式文件处理系统（HDFS）作为大数据存储的框架，分布式计算框架MapReduce作为大数据处理的框架

【云计算与大数据技术】大数据系统总体架构概述（Hadoop+MapReduce ）

大数据基础

这一部分提供了大数据框架的基础,包括序列化、分布式协同等基础服务, 构成了上层应用的基础

Avro - 新的数据序列化与传输工具,将逐步取代Hadoop原有的IPC机制

ZooKeeper - 分布式锁设施 ,它是一个分布式应用程序的集中配置管理器, 用户分布式应用的高性能协同服务,由 Facebook贡献,也可以独立于 Hadoop使用。

大数据存储

HDFS是Hadoop分布式文件系统, HDFS运行于大规模集群之上, 集群使用廉价的普通机器构建, 整个文件系统采用的是元数据集中管理与数据块分散存储相结合的模式, 并通过数据的冗余复制来实现高度容错

大数据处理

基于 MapReduce写出的应用程序能够运行在由上千个普通机器组成的大型集群上, 并以一种可靠容错的方式并行处理TB级别以上的数据集

大数据访问和分析

在 Hadoop + MapReduce之上架构的是基础平台服务,在基础平台之上是大数据访问和分析的应用服务

Pig - Pig支持的常用数据分析主要有分组、过滤、合并等,Pig为创建 Apache MapReduce应用程序提供了一款相对简单的工具

Hive - Hive是由Facebook贡献的数据仓库工具, 是MapReduce实现的用来查询分析结构化数据的中间件

Sqoop - Sqoop由Cloudera开发,是一种用于在 Hadoop与传统数据库间进行数据传递的开源工具

Mahout - Apache Mahout 项目提供分布式机器学习和数据挖掘库

创作不易觉得有帮助请点赞关注收藏~~~文章来源地址https://www.toymoban.com/news/detail-492808.html

到了这里，关于【云计算与大数据技术】大数据系统总体架构概述（Hadoop+MapReduce ）的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

【云计算与大数据技术】数据编码LZSS算法、Snappy压缩库及分布式通信系统的讲解（图文解释超详细）

数据编码概述 - 在分布式系统中需要处理大量的网络数据,为了加快网络数据的传输速度,通常需要对传输数据进行编码压缩数据压缩是以尽可能少的数码来表示信源所发出的信号，减少容纳给定的消息集合或数据采样集合的信号空间，这里讲的信号空间就是被压缩的对象，是

2024年02月16日
浏览(114)
云计算与大数据处理技术_云计算与大数据处理

AIoT技术分析:云计算一般的计算机技术很难支撑企业的运作,于是云计算顺应时代而生,广泛地应用到了企业中。云计算的概念云计算是一种新兴的商业计算模型。... 并支持大规模数据处理、高容错性和自我管理等特性,提供PB级的存储能力,使用结构化的文件来存储数据,并整个

2024年02月01日
浏览(66)
【大数据技术Hadoop+Spark】Spark架构、原理、优势、生态系统等讲解（图文解释）

Spark最初由美国加州伯克利大学（UCBerkeley）的AMP（Algorithms， Machines and People）实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。Spark在诞生之初属于研究性项目，其诸多核心理念均源自学术研究论文。2013年，Spark加

2024年01月16日
浏览(51)
云计算与大数据分析的架构设计原则

随着互联网的普及和人们对信息的需求不断增加，数据的产生和存储已经超越了传统的存储设备和方式的容量。大数据技术涉及到的领域非常广泛，包括网络流量、社交媒体、物联网、人脸识别、自动驾驶等等。同时，随着计算能力的提升和云计算的发展，云计算与大数据分

2024年04月09日
浏览(80)
云计算与大数据第15章分布式大数据处理平台Hadoop习题带答案

1、分布式系统的特点不包括以下的（ D ）。 A. 分布性 B. 高可用性 C. 可扩展性 D．串行性 2、Hadoop平台中的（ B ）负责数据的存储。 A. Namenode B. Datanode C. JobTracker D. SecondaryNamenode 3、HDFS中block的默认副本数量是（ A ）。 A．3

2024年02月06日
浏览(56)
云计算与大数据技术李春燕

第一章云计算概述云计算：指按需使用IT资源和应用程序，通过互联网按使用量付费。四种云公有云：提供公共的IT资源缺点：保密性较低私有云：提供给政府.学校等地优点：保密性高社区云：研究人员使用混合云：包含以上任意两种云计

2023年04月24日
浏览(40)
云计算与大数据之间的羁绊（期末不挂科版）：云计算 | 大数据 | Hadoop | HDFS | MapReduce | Hive | Spark

前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。大数据是需求，云计算是手段。没有大数据，就不需要云计算；没有云计算，就无法处理大数据。所有的计算能力、存储能力、和各种各样功能的应用都通过网络

2024年02月04日
浏览(63)
【云计算与大数据计算】Hadoop MapReduce实战之统计每个单词出现次数、单词平均长度、Grep（附源码）

需要全部代码请点赞关注收藏后评论区留言私信~~~ 下面通过WordCount，WordMean等几个例子讲解MapReduce的实际应用，编程环境都是以Hadoop MapReduce为基础 WordCount用于计算文件中每个单词出现的次数，非常适合采用MapReduce进行处理，处理单词计数问题的思路很简单，在 Map阶段处理每

2024年02月16日
浏览(47)
【计算机三级网络技术】第二篇中小型系统总体规划与设计

基于网络的信息系统结构应包括网络运行环境、网络系统、网络操作系统。网络运行环境指为了保障网络系统安全、可靠与正常运行所需的基本设施和设备条件,主要包括机房与电源两部分。（1）机房和设备间、配线间。机房用于放置交换机、核心路由器、服务器等核心

2024年02月09日
浏览(57)
云计算与大数据第6章云计算节能技术题库及答案

1、云数据中心的能耗组成包含（ D ）。 ① 服务器集群的能耗 ②网络设施的能耗 ③ 存储设备的能耗 ④供电设备的能耗 A. ①②③ B. ①②④ C. ②③④ D. ①②③④ 2、云数据中心的主要评价指标点不包括（ C ）。 A. 可靠

2024年02月02日
浏览(51)