一、 产品概述
1. 当前存储的挑战
随着云计算、物联网、5G、大数据、人工智能等新技术的飞速发展,数据呈现爆发式增长,预计到2025年中国数据量将增长到48.6ZB,超过80%为非结构化数据。
同时,数字经济正在成为我国经济发展的新引擎,数据已经成为企业的核心生产要素,数据即价值。新技术新应用不断产生急剧增长的海量数据,数据的价值越来越高,对存储系统的可靠性、安全性、可用性、性能、成本、运维的要求也越来越高,给存储系统提出了巨大的挑战:
以上挑战和刚需说明,新一代存储系统不光要面向传统的数据可靠性、服务可用性、性能等维度,超大存储量、长期存储经济性、系统水平线性扩展性、可交付的运维等维度成为新的重点。
这驱使新一代存储系统必然走向规模化、集成化、存算分离的分布式scale-out云存储架构,提供可交付的简洁易用的运维平台,让客户自己负责运维,安心使用。
2. FOSS的特点
大道云行对象存储FOSS,是采用先进的分布式全闪架构的信创云存储系统,设计为超大规模数据长期、可靠、绿色节能、高性能存取。
FOSS适用于包括广电媒资、备份归档、远程容灾、视频监控、人工智能、大数据分析、数据湖等大规模非结构化数据存取应用场景,特别是数据量大、吞吐高,成本敏感的需求。
FOSS特点详解 | |
Share Everything架构 |
存储后端网络share everything架构,支持NVMe-oF,支持分布式无状态微服务安全访问存储。 |
信创存储 |
全自主知识产权国产分布式全闪存储软件和国产闪存的结合。 |
全闪架构,超高性能,数据量,性能的水平线性扩展 |
亚毫秒级延迟,单zone-百PB级空间,百GB级吞吐,百万级IOPS。 |
绿色节能 |
节能调度算法使得多数SSD的大部分时间处于低功耗状态(单片SSD<0.5w)。 |
全闪优化设计使得SSD使用时间长,成本低 |
数据按时间聚合,采用全域GC和磨损平衡等设计,极大降低SSD写放大,提高SSD使用寿命。实现大尺度QLC SSD的高密度使用,降低单位成本。 |
长期可靠 |
数据静默错误保护;智能化的介质和数据的巡检、健康扫描、Rebuild恢复。 对数据和介质长期可靠做了慎密的数据保护、监测、扫描、恢复、迁移等运维规划。 |
3. FOSS的核心能力
在线数据的性能和延迟,离线数据的规模和成本。
使用FOSS,意味着客户可以将大部分数据以离线数据的成本保存到在线系统,数据长久在线。
二、 产品架构
1. 网络架构
系统采用扁平的二层网络,易于部署和管理,支持对存储集群节点进行分组,支持跨组数据互访。
- 业务网
业务网可以是IP/IB/RoCE;
每组业务网的计算节点都互通。
- 存储后端网
存储后端网可以是IP/IB/RoCE;
存储后端网支持按分组进行扩展,不同分组之间存储网不通,可以通过业务网进行转发;
分组设计有利于存储网络简单的水平扩展,而不增加组网的复杂度。
一个zone规模的上限,取决于业务网的规模,即计算节点总数;存储网可任意水平扩展,但总规模会受限于连接存储网的计算节点总数。
一般的,一个zone支持100GB的业务网,200个计算节点,20个存储网分组(每分组10P存储空间);则整个zone支持100GB带宽,200PB存储空间。
2. 软件架构
协议层
对外提供s3服务和nas服务。
缓存层
数据分片通过读缓存层降低延迟,满足低读延迟的场景需求。
开放介质存储层
-- volume
开放介质存储(OpenMediaStorage - OMS)层将块设备(disk)的trunk封装为跨节点的、冗余算法(纠删/副本)保护的volume,提供volume的装配、分配和读写接口。
OMS层开放式的直接存取disk,支持:主机Local_disk、SAS/NVMe-oF enclosure disk、块存储系统的LUN(FC/iSCSI/NVMe-oF)。
-- volume_group
volume按分组进行管理、调度和使用。分组用于支持多租户。
volume_group由调度器和node集群组成。
-- node
node代表了挂载的disk的集合,对应实体存储节点主机disk组,或NVMe-oF 盘柜disk组,或块存储划分的Lun组。
node作为disk的IO控制器,提供发现、挂载、访问disk的接口。
-- 调度器负责volume装配和分配
装配:
- 按node类型树进行类型分组
- 按空间平衡+擦写次数平衡选择node
分配:
- 按类型聚合
- 数据分片MVCC+基于租约的volume_range保护机制
元数据
mds集群提供分布式元数据服务,支持最终一致性事务,在线线性扩展。
任务层
包含GC、Disk_Rebuild、数据迁移、数据均衡、数据/介质健康扫描、生命周期、配额、计量归并等任务。
任务通过管理器Task_mgr,分发到Task_agent分布式并行执行。
task_mgr进行任务策略配置、调度、资源使用控制。
Service_mgr
服务部署、升级、配置,单例服务故障转移,集群服务扩展等。
三、产品特性
1. 分布式元数据
很多存储系统采用无元数据服务架构,比如一致性Hash。无元数据服务架构在超大规模分布式系统中存在许多缺点:
-
无法在统一的逻辑上管理元数据,不支持事务,会导致很多一致性问题。
-
没有元数据的范围查询能力,查询范围会放大到整个集群,导致海量对象场景下元数据列举开销大性能差。
-
rebalance过程复杂,要扫描所有需rebalance的数据进行处理并完成状态转换,且网络故障、节点临时离线和永久离线等会进一步增加rebalance复杂度。
FOSS采用分布式元数据服务架构:
-
元数据服务线性平滑,网络故障和节点故障不影响服务的可用性
-
元数据三副本冗余
-
支持热点消除(主键单调递增的元数据,采用shard_bit打散)
-
支持高性能的事务聚合批处理(batch和scan)
-
低延迟(亚毫秒级)
依靠分布式元数据服务,FOSS简洁高效的实现了单桶无限数量对象、快速对象列举、volume调度、全域GC和磨损平衡等高级功能。
2. 存储冷热分层
FOSS存储分层设计的主旨,是为了同时满足超高性能和超大容量需求。FOSS的数据存储包括2层:
(热)高性能层
- 热volume_group
- 读缓存集群
高性能层满足要求极低延迟的高性能场景。高并发写入通过写请求聚合提高IOPS;小文件的低延迟读取,通过热数据读缓存优化。
通常,变冷的数据会迁移到大容量层。只需要高性能层的特例客户,也可以独立使用高性能层,不部署大容量层。
(冷)大容量层
- 冷volume_group
大容量层必须依赖高性能层存在。tier_migrate任务将高性能层的数据批量迁移到冷volume 。
批量迁移采用顺序大IO写入,使大尺度SSD可以得到优化使用。
3. 资源多租户
S3服务资源多租户
通过service_mgr配置租户独占的S3服务资源,为特定租户建立专属的s3_serv_group 。
通过service_mgr配置s3_serv_group和volume_group的映射关系。
存储资源多租户
bucket可以代表租户的分类存储空间,多租户的空间管理通过bucket的存储策略进行。
支持设置bucket的数据放置策略(对应的volume_group),比如可指定bucket放置到特定性能分类(SSD|HDD)的volume 。
4. 优秀的扩展性
FOSS支持容量和性能的横向线性扩展,元数据的横向线性扩展,通过分布式元数据服务mds实现:
-
mds_kv集群的扩展
mds_kv采用全局字典序range方式进行key的sharding;支持在线增加kv节点,IOPS随kv节点个数线性增长。
-
mds事务服务集群的扩展
mds事务服务集群,采用配置订阅方式扩展;支持在线增加事务服务,IOPS随事务服务个数线性增长。
数据存储的横向线性扩展,通过开放介质存储(OpenMediaStorage-OMS)层实现:
-
存算分离的架构下,数据存储的横向扩展简化为存储后端网的横向扩展。
-
存储后端网按分组进行水平扩展,每个分组后端网独立组网,扩展简单。
增加volume_group中node,即增加了分组的存储量和IOPS;当volume_group内的扩展到达上限后,可以通过新建volume_group进行扩展。
5. 绿色节能
FOSS通过数据写入volume分配算法和分类聚合算法,实现(冷)数据层的disk节能。
volume分配算法
数据写入分配volume时,在满足性能吞吐需求的条件下,一段时间内分配的volume使用尽量少的同一批disk。(其他disk这段时间处于节能状态,存储规模越大,节能比例越高)
分类聚合算法
应用按时间批量读取数据的时候,因为应用写入数据按时间聚合,读关联的disk和写入时是相同的,同样只是少数的一批disk。
四、产品愿景
以全闪绿色节能信创存储的创新技术:
为客户提供自运维的私有云存储,应存尽存;
在企业存储领域促进国产SSD对进口HDD的替代;
作为智能云平台的存储底座,助力数据处理的智能化,发掘数据的真正价值。文章来源:https://www.toymoban.com/news/detail-651116.html
《FOSS全闪对象存储技术白皮书》详见官网大道云行 TaoCloud - 新一代全闪软件定义存储领导者 (taocloudx.com)文章来源地址https://www.toymoban.com/news/detail-651116.html
到了这里,关于首发 | FOSS分布式全闪对象存储系统白皮书的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!