大数据存储系统HDFS和对象存储(OOS/S3)的比较

这篇具有很好参考价值的文章主要介绍了大数据存储系统HDFS和对象存储(OOS/S3)的比较。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

  虽然Apache Hadoop以前都是使用HDFS的,但是当Hadoop的文件系统的需求产生时候也能使用S3。Netflix的 Hadoop data warehouse 利用这个特性把数据存储在S3上而不是HDFS上。笔者曾经工作经历的大数据集群存储都是用HDFS,当前工作接触到对象存储S3,在实践中比较两者的不同之处。

1.可扩展性

HDFS 依赖本地的存储只能横向扩展. 增加一个存储区域就意味着不仅要加一个更大的硬盘驱动器来扩充节点,并且还要在集群上面加更多的机器。这是可行的,但是相比S3花费更多并且更加复杂。

S3 能根据存储的数据自动地扩展,根本不需要改变任何东西。甚至可用的空间是几乎无限的(至少对Amazon没有限制)。

S3表现更加优异

2.数据的高可用性

对HDFS数据持久性的统计模型表明,在一个很大的4000个节点的集群(16PB的总存储
250,736,598个block副本)上面,丢失一个block的数据(默认是64MB)的概率是24小时内5.7x10-7,365天内是2.1 x10-4。然而,对于仅仅只含有几十个实例的大多数集群来说,丢失数据的概率要高得多。

S3为每个对象提供99.999999999%的年持久性,意味着每10,000,000年每10,000个对象中只有一个会丢失。(详情见 S3 FAQ). 它甚至可以更好,差不多一年半以前我的一个在Xplenty的大学同学在Amazon使用了AWS workshop.他们的代表声称,在默认的S3存储上(一个便宜的选择是RRS,只有99.99%的持久性)他们实际上没有丢失一个对象

此外大数据集群中的HDFS依赖机器,恢复数据者备份数据都强依赖集群机器。S3存储不依赖集群机器,数据存在另外一套单独的体系中。

S3表现更加优异

3.成本价格

为了确保数据的完整性,HDFS默认存储数据的每个块的三个副本。这意味着需要的HDFS存储空间是实际数据的3倍,并花费相应的成本。虽然数据复制不是必须的,只是存储一个拷贝将消除HDFS的耐久性,并可能导致数据丢失。
亚马逊照顾备份数据S3上的,所以该空间的100%是可用的并且只花费相应的价钱。 S3还支持存储压缩文件,这大大减少了所需以及该法案的空间。

S3表现更加优异

4.性能表现(Performance)

HDFS的表现是非常棒的。数据被存储和运行在提高存取和处理速度相同的机器上面。
不幸的是S3还比不上HDFS。等待时间是明显更高和数据吞吐量较低。然而,Hadoop作业通常是由chains的mapreduce作业和中间数据存储到HDFS和本地文件系统比读写亚马逊S3你能够得到的节点的本地磁盘的吞吐量。
我们最近进行了一些测试,TestDFSIO,一个hadoop的读/写测试程序,在一个有m1.xlarge实例,每个节点有四个短暂的磁盘设备集群上。结果证实,HDFS性能更好。

HDFS on Ephemeral Storage Amazon S3
Read 350 mbps/node 120 mbps/node
Write 200 mbps/node 100 mbps/node

HDFS表现更加优异

5.数据权限

有人认为HDFS是不是安全的,但事实并非如此。Hadoop通过Kerberos提供用户身份认证和通过Hadoop的文件系统权限提供了授权。YARN,Hadoop的最新版本,它能做得更好通过一个称为federations的新功能 - 将集群分成几个命名空间防止用户访问一个不属于他们的数据。数据可以通过SSL安全地被上传到Amazon的实例。
S3内置了安全性。它支持用户身份验证,以控制谁可以访问数据,起初只bucket和objects的所有者能做操作。更多的权限可以通过bucket策略和访问控制列表(ACL)授予用户和组。数据可以被加密,并通过SSL安全地上传

HDFS数据权限比S3控制要好

6.其他限制

尽管HDFS可以存储任何大小的文件,它具有存储非常小的文件(它们应该被连接或统一到Hadoop的档案)的问题。此外,保存的某一集群上的数据仅提供给该集群的机器上,并且不能被集群外的实例使用,S3没有这样的限制。在S3上的文件有一些限制,比如单次上传文件限制在5GB内,不支持Parquet或ORC文件直接读写,HDFS支持Parquet或ORC。

HDFS表现更好文章来源地址https://www.toymoban.com/news/detail-529475.html

到了这里,关于大数据存储系统HDFS和对象存储(OOS/S3)的比较的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Hadoop的分布式文件存储系统HDFS组件的使用

    存储整个HDFS集群的元数据(metaData) —— 整个集群中存储的目录和文件的索引 管理整个HDFS集群 接收客户端的请求 负责节点的故障转移 存储数据,是以block块的形式进行数据的存放。 默认情况下block块的大小是128M。 blocksize大小的计算公式: 寻址时间:下载文件时找到文件

    2024年02月09日
    浏览(78)
  • 大数据技术之Hadoop:HDFS存储原理篇(五)

    目录 一、原理介绍 1.1 Block块 1.2 副本机制 二、fsck命令 2.1 设置默认副本数量 2.2 临时设置文件副本大小 2.3 fsck命令检查文件的副本数 2.4 block块大小的配置 三、NameNode元数据 3.1 NameNode作用 3.2 edits文件 3.3 FSImage文件 3.4 元素据合并控制参数 3.5 SecondaryNameNode的作用 四、HDFS的读

    2024年02月09日
    浏览(69)
  • Hadoop 集群中使用 S3(对象存储)文件系统

    Hadoop 自带 S3 依赖,位置如下: 但是这些依赖包默认不在 hadoop classpath 下面。可以使用以下两种方法引入这两个包: 修改hadoop的core-site.xml文件: s3的配置模板(记得修改成自己的 secret key 与 access key ) 更改完毕并重启集群后 测试hdfs dfs -ls s3a://hive0614/ 等命令操作 S3 中的文件

    2024年02月06日
    浏览(44)
  • 【Hadoop】-HDFS的存储原理[4]

    目录 前言 一、fsck命令 1、HDFS副本块数量的配置 2、fsck命令查看文件的副本数 3、block配置 二、NameNode元数据 1、edits文件 2、fsigame文件 3、NameNode元数据管理维护 4、元数据合并控制参数 5、SecondaryNameNode的作用 三、HDFS数据的读写流程 1、数据写入流程 2、数据读取流程 HDFS的存

    2024年04月26日
    浏览(33)
  • Hadoop大数据从入门到实战(二)分布式文件系统HDFS

    头歌实践教学平台 教学课堂 大数据从入门到实战 - 第2章 分布式文件系统HDFS 任务描述 本关任务:使用 Hadoop 命令来操作分布式文件系统。 编程要求 在右侧命令行中启动 Hadoop ,进行如下操作。 在 HDFS 中创建 /usr/output/ 文件夹; 在本地创建 hello.txt 文件并添加内容:“ HDFS的

    2024年02月12日
    浏览(46)
  • Hadoop 存储占用分析命令,查看 Hdfs 文件夹占用大小

    兼职公司 Hadoop 运维之后,经常要解决 Hdfs 空间占用的问题,不知道哪天谁又在集群上留下一大堆缓存文件也不清掉,Hadoop 本身默认就是三副本,人一多每个人留一点结果占用了一堆的存储空间。 在 Linux 上游 du 这个指令可以很轻松的结合 sort 对文件夹的大小进行排序,分析

    2024年02月15日
    浏览(53)
  • 关于hudi与HDFS/对象存储的文件追加写(Append)

    在HDFS的早期版本中,出于种种考虑,没有支持文件的追加写。但从1.0.4版本开始,支持了文件追加写。配置文件中也有是否开启该功能的选项: 而对于公有云上常见的对象存储,比如S3和OSS,是否支持追加写呢? OSS的一般文件不支持append。不过可以创建追加写类型文件,就能

    2024年02月13日
    浏览(45)
  • Hadoop - HDFS文件系统

    目录 HDFS文件系统  1、文件系统定义 2、大数据时代,面对海量数据,传统的文件存储系统会面临哪些挑战? 3、分布式存储系统的核心属性及功能含义 一、分布式存储的优点 二、元数据记录的功能 三、分块存储好处 四、副本机制的作用 4、HDFS简介 HDFS适用场景 5、HDFS主从架

    2023年04月08日
    浏览(39)
  • Hadoop分布式文件系统-HDFS

    HDFS (Hadoop Distributed File System)是 Hadoop 下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。 HDFS 遵循主/从架构,由单个 NameNode(NN) 和多个 DataNode(DN) 组成: - NameNode : 负责执行有关 ` 文件系统命名空间 ` 的操作,例如打开,关闭、

    2024年02月07日
    浏览(54)
  • Hadoop HDFS(分布式文件系统)

    一、Hadoop HDFS(分布式文件系统) 为什么要分布式存储数据 假设一个文件有100tb,我们就把文件划分为多个部分,放入到多个服务器 靠数量取胜,多台服务器组合,才能Hold住 数据量太大,单机存储能力有上限,需要靠数量来解决问题 数量的提升带来的是网络传输,磁盘读写,

    2024年02月06日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包