数据中台选型前必读(七):解读数据服务的四大关键技术

这篇具有很好参考价值的文章主要介绍了数据中台选型前必读(七):解读数据服务的四大关键技术。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

在前面的文章中,我们介绍了“数据服务”对于“数据中台”的重要性,并讲解了数据服务解决的问题及其核心功能,在这个系列的最终篇我们展开聊聊数据服务的四大关键技术,然后总结一下数据服务架构的三大关键点,希望对大家有所帮助。

为了使数据中台具备快速响应前端业务需求的能力,主流的数据中台均采用了云原生技术来构建数据服务层,实现数据服务的快速开发、有序落地。

数据中台选型前必读(七):解读数据服务的四大关键技术

云原生是一种构建和运行应用程序的方法,是一套技术体系和方法论,因此在这里先不展开云原生的具体架构。我们重点关注在数据中台领域,基于云原生的关键技术应用。

数据中台选型前必读(七):解读数据服务的四大关键技术

在数据中台领域,应用云原生的核心优势在于每个服务至少有两个副本,实现了服务的高可用;同时,根据访问量大小,服务的副本数量可以动态调整,可以实现对客户端透明的弹性伸缩;服务之间基于容器实现了资源隔离,避免了服务之间的相互影响;这些特性非常适用于提供高并发、低延迟,在线数据查询的数据服务。

麦聪软件,全球领先的DaaS厂商,轻量级数据中台领导者。目前已服务超过400家中大型企业客户,世界500强集团中已有30多家选用。核心产品麦聪DaaS平台,主推数据统一管理和服务两大模块,主要功能包括元数据管理、数据开发、数据治理、数据服务、数据市场等,客户涉及汽车、重型装备、制造、军工、政府、金融等行业。

数据中台选型前必读(七):解读数据服务的四大关键技术

以下是具体技术应用场景。

第一,配置即开发。

平台用户分为两类角色:数据服务生产方、数据服务调用方。数据服务生产方只需要配置,实现“配置即开发”。配置内容包括:

数据源
数据加速到何处
接口形态,访问方式
测试环境,访问隔离的测试数据

当配置完毕后,数据服务平台便会根据配置清单,完成接口的自动化生产和部署。生产和部署完毕后,调用方在平台申请服务权限调用。通过自动化生产,达到配置即开发的目的,从而极大的提升效率。

数据中台选型前必读(七):解读数据服务的四大关键技术

第二,多模式服务形态。

数据中台选型前必读(七):解读数据服务的四大关键技术

数据服务有多种服务形态,包括:

KV API:简单点查,可以支撑百万QPS、毫秒延迟。这类API是通过模板自动化创建,支持单查、批量查询等接口,返回的结果是 Protobuf (PB) 结构体,从而将结果自动做了ORM,对于主调方更加友好。典型场景包括:根据IP查询GEO位置信息、根据用户ID查询用户标签画像信息等。
SQL API:复杂灵活查询,底层基于OLAP/OLTP 存储引擎。通过Fluent API接口,用户可自由组合搭配一种或若干种嵌套查询条件,可查询若干简单字段或者聚合字段,可分页或者全量取回数据。典型场景包括:用户圈选(组合若干用户标签筛选出一批用户)。
Union API:融合API,可自由组合多个原子API,组合方式包括串行和并行方式。调用方不再需要调用多个原子API,而是调用融合API,通过服务端代理访问多个子查询,可以极大降低访问延迟。

第三,高效数据加速。

数据中台选型前必读(七):解读数据服务的四大关键技术

企业的数据资产,通常是存在于低速的存储引擎中,无法支撑线上业务高访问流量。因此需要以系统化的方式进行数据加速。目前有两种加速方式:

全量数据加速。从多个数据源摄入原始数据(如Kafka,MySQL、线上访问日志等),进行加工建模后,得到数据资产。数据资产经由独立的数据同步服务,同步至其他更高速的存储引擎,如redis、hbase、druid等。数据同步支持一次性或者周期性(小时、天、周等)将数据从Hive同步至其他存储中,数据同步本身是基于分布式的调度系统,内核是基于datax 进行数据同步。大数据服务化平台单日同步的数据量达到1200亿条,数据size达到20TB。

多级缓存(部分数据加速)。大数据服务化平台会使用Redis、Hbase、Druid、Clickhouse等方式存储所有数据,但是部分存储如Hbase速度可能较慢,针对热点数据需要使用额外的热点缓存来Cache数据。热点缓存是多级缓存,针对每个API接口,用户可自由搭配组合多级缓存、灵活设置缓存策略。此外,针对数据较大的API,还可配置数据压缩,通过多种压缩方式(如 ZSTD, SNAPPY, GZIP 等),可将数据量显著减少(部分API 甚至能减少90%的数据存储量)。

第四,资源隔离。

数据中台选型前必读(七):解读数据服务的四大关键技术

资源隔离是可用性保障的常见手段之一,通过隔离将意外故障等情况的影响面降低。不管是微服务,还是存储,需要按照业务+优先级(高、中、低)粒度隔离部署,独立保障,业务之间互不影响、业务内不同级别也互不影响。同一业务线内可能有多个不同数据服务,通过混合部署,提高资源使用率。

综上,我们可以梳理数据服务的核心框架。

数据中台选型前必读(七):解读数据服务的四大关键技术

图中,每个已经发布上线的API接口都对应了一个Kubernates的Service,每个 Service 有多个副本的Pod组成,每个API接口访问后端存储引擎的代码运行在Pod对应的容器中,随着 API 接口调用量的变化,Pod可以动态的创建和销毁。

Envoy是服务网关,可以将Http请求负载均衡到Service的多个Pod上。Ingress Controller可以查看Kubernates中每个Service的Pod变化,动态地将Pod IP写回到Envoy,从而实现动态的服务发现。前端的APP,Web或者是业务系统的 Server端,通过一个4层的负载均衡LB接入到Envoy。

基于云原生的设计,解决了数据服务不同接口之间资源隔离的问题,同时可以基于请求量实现动态的水平扩展,同时借助Envoy实现了限流、熔断的功能。

最后,我们总结数据服务架构的关键,主要有以下三点:

支持丰富的数据源:包括大宽表、文本文件、机器学习模型(模型也是一种数据资产),来构建完善的数据服务。
支持多样取数方式:除了支持同步快速取数之外,还支持异步查询取数、推送结果、定时任务等多样化方式,以满足业务多种场景需求。
建设统一的API网关:集成权限管控、限流降级、流量管理等于一体,不仅平台创建的服务可以注册进API网关,用户自己开发的API也可注册进API网关,从而享受已有的基础网关能力,为业务提供数据服务能力。文章来源地址https://www.toymoban.com/news/detail-430876.html

到了这里,关于数据中台选型前必读(七):解读数据服务的四大关键技术的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 微服务架构详解(一):微服务技术选型

    目录 1.微服务简介     2.微服务技术选型 3.微服务核心组件 3.1.注册中心 3.1.1.注册中心对比 3.2.服务网关 3.2.1.主流API网关对比 3.3.分布式配置中心 3.4.服务容错(服务熔断) 3.5.负载均衡 3.5.1.负载均衡有好几种实现策略, 3.5.2.负载均衡分类 3.5.3.微服务实现负载均衡的三种架构

    2024年02月03日
    浏览(80)
  • 【微服务】服务发现和管理技术框架选型调研

    结合实际业务和开发需要,着重考虑性能可靠性、功能和社区支持程度三方面,认为 Nacos更适合作为服务发现和管理的技术框架 。具体理由如下: 性能更好,可靠性更高  经过阿里、APISIX、SpringCloudAlibaba,阿里内部的钉钉、考拉、饿了么、优酷等业务验证 Nacos 在开源版本中,

    2024年02月10日
    浏览(46)
  • EasyMR6.2 全面解读:四大功能深度优化,解锁全新大数据处理和计算体验

    在刚刚过去的2024春季发布会上,袋鼠云带来了数栈产品V6.2版本的全新发布。其中,EasyMR 作为数栈V6.2中的一项关键能力,代表了袋鼠云对大数据生态的深入理解和持续创新。 EasyMR(后文统称EMR)是袋鼠云基于 Hadoop、Hive、Spark、Flink、HBase 等开源组件,构建的弹性计算引擎,

    2024年04月22日
    浏览(27)
  • 9.数据中台 --- 数据服务体系建设

    2024年02月13日
    浏览(39)
  • Flink 实时数仓关键技术解读:Upsert Kafka 和 动态表(Dynamic Table)

    博主历时三年精心创作的《大数据平台架构与原型实现:数据中台建设实战》一书现已由知名IT图书品牌电子工业出版社博文视点出版发行,点击《重磅推荐:建大数据平台太难了!给我发个工程原型吧!》了解图书详情,京东购书链接:https://item.jd.com/12677623.html,扫描左侧

    2024年02月22日
    浏览(46)
  • 构建数据中台的三要素:方法论、组织和技术

    知道要转型,要建设数据中台,却不知咋做,咋办? 现在有很多讲“如何建设数据中台”文章,观点各不相同: 数据中台是数据建设方法论,按照数据中台设计方法和规范实施就可建成数据中台 数据中台背后是数据部门组织架构变更,把原先分散的组织架构形成一个统一中

    2024年02月16日
    浏览(43)
  • 数据中台开源技术栈:一图看懂全面的数据管理与应用架构

          随着数字化时代的到来,数据管理和应用架构变得越来越重要。数据平台作为一个集中管理和利用数据的架构,为组织提供了促进数据驱动决策和业务创新的能力。本文通过一幅图表,将数据平台技术栈的组成部分清晰呈现,助您深入了解数据中台的全面数据管理与应

    2024年04月10日
    浏览(47)
  • 企业中台建设的关键思维与构建原则

         中台建设是一个复杂且持续迭代的过程。结合用户数字中台项目的实践,我们总结出中台建设过程中企业管理者应该明确的3个关键思维。    思维1:中台一定需要技术平台的支撑             没有一个相对完整的技术平台是很难把中台架构搭建起来的,企业在构

    2024年02月13日
    浏览(70)
  • 开发者必读指南:必须知道的关键性能指标,提升代码性能

    在Web应用程序的开发过程中,性能是一个至关重要的问题。高性能的Web应用程序需要快速响应,并能够处理大量的并发请求。而为了评估Web应用程序的性能状况,我们需要关注一些关键的性能指标。本文将介绍一些常见的Web项目性能指标及其意义。 1)请求响应时间 请求响应

    2024年02月07日
    浏览(51)
  • 【技术选型】Mysql和ES数据同步方案汇总

    在实际项目开发中,我们经常将Mysql作为业务数据库,ES作为查询数据库,用来实现读写分离,缓解Mysql数据库的查询压力,应对海量数据的复杂查询。 这其中有一个很重要的问题,就是如何实现Mysql数据库和ES的数据同步,今天和大家聊聊Mysql和ES数据同步的各种方案。 MySQL

    2024年02月08日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包