【云计算与大数据技术】文件存储格式行式、列式、GFS、HDFS的讲解(图文解释 超详细)

这篇具有很好参考价值的文章主要介绍了【云计算与大数据技术】文件存储格式行式、列式、GFS、HDFS的讲解(图文解释 超详细)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、分布式文件系统

文件系统最后都需要以一定的格式存储数据文件,常见的文件存储布局有行式存储、列式存储以及混合式存储三种,不同的类别各有其优缺点和适用的场景,在目前的大数据分析系统中,列式存储和混合式存储方案因其特殊优点被广泛采用

1:行式存储

在传统关系型数据库中,行式存储被主流关系型数据库广泛采用,HDFS文件系统也采用行式存储,在行式存储中,每条记录的各个字段连续的存储在一起,而对于文件中的各个记录也是连续存储在数据块中。

行式存储对于大数据系统的需求已经不能很好的满足,主要体现在以下几个方面

快速访问海量数据的能力被束缚

行的值由响应列的值来定位,这种访问模型会影响快速访问的能力,因为在数据访问的过程中引入了耗时的输入与输出,在行式存储中,为了提高数据处理能力,一般通过分区技术来减少查询过程中数据输入与输出的次数,从而缩短响应时间,但是这种分区技术对海量数据规模下的性能改善效果并不明显 

扩展性差 

在海量规模下,扩展性差式传统数据存储的一个致命的弱点。一般通过向上扩展和向外扩展来解决数据库扩展的问题。向上扩展是通过升级硬件来提升速度,从而缓解压力,向外扩展则是按照一定的规则将海量数据进行划分,再将原来集中存储的数据分散到不同的数据服务器上,但由于数据被表示成关系模型,从而难以被划分到不同的分片中等原因,这种解决方案仍有有局限性

云存储的列式格式,云计算与大数据技术,大数据,云计算,hdfs,系统架构,存储格式

2:列式存储 

列式存储 - 与行式存储布局对应,列式存储布局实际存储数据时按照列队所有记录进行垂直划分,将同一列的内容连续存放在一起

将经常联合使用的列存储在一个数据块中,避免通过不必要的网络传输来获取多列数据,采用列组方式存储布局可以在一定程度上缓解这个问题,也就是将记录的列进行分组,将经常使用的列分为一组,这样即使是按照列式来存储数据,也可以将经常联合使用的列存储在一个数据块中,避免通过不必要的网络传输来获取多列数据,对于某些场景而言会较大的提升系统性能

云存储的列式格式,云计算与大数据技术,大数据,云计算,hdfs,系统架构,存储格式

3:混合式存储 

混合式存储- 融合了行式和列式存储布局的优点

首先将记录表按照行进行分组,若干行划分为一组

对于每组内的所有记录,在实际存储时按照列将同一列内容连续存储在一起

二、Google文件系统(GFS)

GFS(Google文件系统)是Google为了存储百亿计的海量网页信息而专门开发的文 件系统

数据冗余备份、故障自动检测、故障机器自动恢复等都列在GFS的设计目标里

GFS中存储的文件绝大多数是大文件

系统中存在大量的“追加”写操作,即在已有文件的末尾追加内容,已经写入的 内容不做更改

对于数据读取操作来说,绝大多数操作都是“顺序”读,少量的操作是“随机” 读  

云存储的列式格式,云计算与大数据技术,大数据,云计算,hdfs,系统架构,存储格式

三、HDFS 

Hadoop 分布式文件系统 (HDFS)被设计成适合运行在通用硬件 (commodity hardware)上的分布式文件系统,HDFS是一个高度容错性的系统,适合部署在廉价的机器上,HDFS能够提供高吞吐的数据访问,非常适合大规模数据集上的应用,HDFS在最开始是在Apache Nutch搜索引擎项目的基础架构开发的。HDFS是Apache Hadoop Core项目的一部分

HDFS 采用 master/slave 架构。一个 HDFS 集群由一个namenode 和一定数目的 datanode 组成

HDFS采用Java语言开发,因此任何支持Java的机器都可以部署NameNode或者DataNode,由于采用了可移植性极强的Java语言,使得HDFS可以部署到多种类型的机器上

云存储的列式格式,云计算与大数据技术,大数据,云计算,hdfs,系统架构,存储格式

 创作不易 觉得有帮助请点赞关注收藏~~~文章来源地址https://www.toymoban.com/news/detail-592483.html

到了这里,关于【云计算与大数据技术】文件存储格式行式、列式、GFS、HDFS的讲解(图文解释 超详细)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 云计算与大数据技术 李春燕

    第一章  云计算概述 云计算:指按需使用IT资源和应用程序,通过互联网按使用量付费。 四种云 公有云:提供公共的IT资源             缺点:保密性较低 私有云:提供给政府.学校等地             优点:保密性高 社区云:研究人员使用 混合云:包含以上任意两种 云计

    2023年04月24日
    浏览(40)
  • 头歌Educoder云计算与大数据——实验五 Java API分布式存储

    原始电商数据都是存储在关系型数据库或 NoSQL 数据库上的,是面向OLTP(联机事务处理过程)的;数据都是面向业务的,而不是面向分析。因此数据比较复杂,表很多关联的数据是分散的,不利于统计分析;因此需要把数据从多个表里导出来、联合起来,找出分析所需要的数据项

    2023年04月09日
    浏览(63)
  • 云计算与大数据第6章 云计算节能技术题库及答案

    1、云数据中心的能耗组成包含(  D  )。 ① 服务器集群的能耗   ②网络 设施的能耗   ③ 存储设备的能耗  ④供电设备的能耗 A. ①②③             B. ①②④       C. ②③④              D. ①②③④ 2、云数据中心的主要评价指标点不包括(  C  )。 A. 可靠

    2024年02月02日
    浏览(51)
  • 基于Hadoop的云计算与大数据处理技术

    一、实验目的 1.了解Scala语言的基本语法 2.了解Spark Scala开发的原理 3.了解Spark Java API的使用 4.了解Spark的Scala API及Java API对数据处理的不同点 二、实验内容  某电商网站记录了大量用户对商品的收藏数据,并将数据存储在名为buyer_favorite1的文件中,数据格式以及数据内容如下

    2024年02月04日
    浏览(39)
  • 数字孪生的技术实现:云计算与大数据分析

    数字孪生(Digital Twin)是一种数字化的模拟体,通过实时的数据传输和实时的模拟计算,实现物理世界的设备、系统或过程与其数字模拟体之间的实时同步。数字孪生可以用于设备的故障预警、设备的远程控制、设备的性能优化、设备的生命周期管理等多种应用场景。数字孪生

    2024年04月15日
    浏览(35)
  • 云计算与大数据处理:面向未来的技术路线

    随着互联网的普及和人们对信息的需求不断增加,数据的产生和存储量也随之增长呈指数级增长。大数据技术是应对这种数据爆炸的一种解决方案,它涉及到的领域非常广泛,包括数据存储、数据处理、数据挖掘、数据分析等。云计算是一种基于互联网的计算资源分配和管理

    2024年04月09日
    浏览(44)
  • 【云计算与大数据技术】分布式计算、虚拟化技术、并行编程技术等技术讲解(超详细必看)

    分布式计算是一种计算方法,和集中式计算相对,随着计算的发展,一些应用需要巨大的计算能力才能完成,如果采用集中式计算则需要耗费很长的时间,而分布式计算将应用分解成许多更小的部分,分配到多台计算机进行处理,这样可以节省整体计算时间,大大提高计算效

    2023年04月15日
    浏览(67)
  • 云计算与大数据分析的技术研发及其创新思路

    随着互联网的普及和人们对信息的需求不断增加,数据的产生和存储量也随之增加。随着计算机硬件的不断发展,我们可以更加高效地处理这些大量的数据,从而发现更多的价值。云计算是一种基于互联网的计算资源共享和分配方式,它可以让我们更加高效地存储和处理大量

    2024年04月09日
    浏览(38)
  • 【云计算与大数据技术】大数据系统总体架构概述(Hadoop+MapReduce )

    企业级大数据应用框架需要满足业务的需求,一是要求能够满足基于数据容量大,数据类型多,数据流通快的大数据基本处理需求,能够支持大数据的采集,存储,处理和分析,二是要能够满足企业级应用在可用性,可靠性,可扩展性,容错性,安全性和隐私性等方面的基本

    2024年02月09日
    浏览(50)
  • 云计算与大数据课程笔记(九)之虚拟化技术(下)

    内存复用技术是操作系统中用来高效管理和优化内存资源的一组策略。这些技术旨在提高内存利用率,减少物理内存的需求,并确保系统运行时的高性能。 内存共享技术 允许多个进程访问同一块内存区域 ,这有助于减少相同数据的多份拷贝,从而节省内存资源。内存共享可

    2024年04月16日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包