大数据之路书摘:走近大数据——从阿里巴巴学习大数据系统体系架构

这篇具有很好参考价值的文章主要介绍了大数据之路书摘:走近大数据——从阿里巴巴学习大数据系统体系架构。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

在大数据时代,人们比以往任何时候更能收集到更丰富的数据。但是如果不能对这些数据进行有序、有结构地分类组织和存储,如果不能有效利用并发掘它,继而产生价值,那么它同时也成为一场“灾难”。无序、无结构的数据犹如堆积如山的垃圾,给企业带来的是令人咋舌的高额成本,给数据采集、存储和计算都带来了极大的挑战。

如何有效地满足来自员工、商家、合作伙伴等多样化的需求 ,提高他们对数据使用的满意度,是数据服务和数据产品需要面对的挑战。

以下是阿里巴巴的大数据系统体系架构图,他们企业的大数据架构可分为四层——数据采集、数据计算、数据服务和数据应用。

大数据之路书摘:走近大数据——从阿里巴巴学习大数据系统体系架构

1.数据采集层

阿里巴巴的日志采集体系方案包括两大体系:Aplus.JS Web日志采集技术方案; UserTrack APP 端日志采集技术方案。在采集技术基础之上,阿里巴巴用面向各个场景的埋点规范,来满足通用浏览、点击、特殊交互、 APP 事件、 H5 APP 里的 H5 Native 日志数据打通等多种业务场景。同时,还建立了一套高性能、高可靠性的数据传输体系,完成数据从生产业务端到大数据系统的传输。在传输方面,采用TimeTunnel (TT ),它既包括数据库的增量数据传输,也包括日志数据的传输; TT 作为数据传输服务的基础架构,既支持实时流式计算,也支持各种时间窗口的批量计算。另外,也通过数据同步工具( DataX同步中心,其中同步中心是基于 DataX 易用性封装的)直连异构数据库(备库)来抽取各种时间窗口的数据。

2.数据计算层

从采集系统中收集到的大量原始数据,将进入数据计算层中被进一步整合与计算。

面对海量的数据和复杂的计算,网里巴巴的数据计算层包括两大体系:数据存储及计算云平台(离线计算平台 MaxCompute 和实时计算Strea Compute )和数据整合及管理体系(内部称之为“OneData ”)。其中, Max Compute 是阿里巴巴自主研发的离线大数据平台 ,其丰富的功能和强大的存储及计算能力使得阿里巴巴的大数据有了强大的存储和计算引擎; StreamCompute 是网里巴巴自主研发的流式大数据平台,在内部较好地支持了阿里巴巴流式计算需求: OneData 是数据整合及管理的方法体系和工具,阿里巴巴的大数据工程师在这一体系下,构建统一、规范、可共享的全域数据体系 ,避免数据的冗余和重复建设 ,规避数据烟囱和不一致性,充分发挥间里巴巴在大数据海量、多样性方面的独特优势。

  • 数仓分层:

阿里数据仓库的数据加工链路也是遵循业界的分层理念,包括操作数据层( Operational Data Store, ODS )、明细数据层( Data Warehouse Detail , DWD )、汇总数据层( Data Warehouse Summary, DWS )和应用数据层( Application Data Store, ADS )。通过数据仓库不同层次之间的加工过程实现从数据资产向信息资产的转化,并且对整个过程进行有效的元数据管理及数据质量处理。

  • 元数据管理:

在阿里大数据系统中,元数据模型整合及应用是一个重要的组成部分,主要包含数据源元数据、数据仓库元数据 、数据链路元数据、工
类元数据 数据质量类元数据等。元数据应 主要面向数据发现、数据管理等 ,如用于存储、计算和成本管理等。

3.数据服务层

当数据已被整合和计算好之后, 需要提供给产品和应用进行数据消费。为了有更好的性能和体验,阿里巴巴构建了自己的数据服务层,通过接口服务化方式对外提供数据服务。针对不同的需求,数据服务层的数据源架构在多种数据库之上,如 MySQL HBase 等。后续将逐渐迁移至阿里云云数据库 ApsaraDB for RDS (简称“ RDS ”)和表格存储( TableStore )等。

数据服务可以使应用对底层数据存储透明,将海量数据方便高效地开放给集团内部各应用使用。

数据服务层对外提供数据服务主要是通过统一的数据服务平台(为方便阅读,简称为“OneService ”)。 One Service 以数据仓库整合计算好的数据作为数据源,对外通过接口的方式提供数据服务,主要提供简单数据查询服务、复杂数据查询服务(承接集团用户识别、用户画像等复杂数据查询服务)和实时数据推送服务 三大特色数据服务。

4.数据应用层

数据已经准备好,需要通过合适的应用提供给用户,让数据最大化地发挥价值。阿里对数据的应用表现在各个方面,如搜索、推荐、广告、金融、信用、保险、文娱、物流等。商家 ,阿里内部的搜索、推荐、广告、金融等平台 ,阿里内部的运营和管理人员等,都是数据应用方; ISV研究机构和社会组织等也可以利用阿里开放的数据能力和技术。文章来源地址https://www.toymoban.com/news/detail-491056.html

到了这里,关于大数据之路书摘:走近大数据——从阿里巴巴学习大数据系统体系架构的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 我与阿里巴巴集团副总裁、阿里云智能数据库事业部总负责人在阿里云官网同框啦

    我与阿里巴巴集团副总裁、阿里云智能数据库事业部总负责人在阿里云官网同框啦

    大家好,我是冰河~~ 今天周末,就暂时不发技术文章了。今天为大家分享一个对我个人来说,比较高兴的事情,就是我成为阿里云“大咖答”栏目下数据库专题的荣誉版主啦。 其实,更令我自豪的是我很荣幸与ACM杰出科学家,阿里巴巴集团副总裁、阿里云智能数据库事业部总

    2024年02月02日
    浏览(18)
  • 阿里巴巴内部:全技术栈PPT分享(架构篇+算法篇+大数据)

    阿里巴巴内部:全技术栈PPT分享(架构篇+算法篇+大数据)

    我只截图不说话,PPT大全,氛围研发篇、算法篇、大数据、Java后端架构!除了大家熟悉的交易、支付场景外,支撑起阿里双十一交易1682亿元的“超级工程”其实包括以下但不限于客服、搜索、推荐、广告、库存、物流、云计算等。 Java核心技术栈:覆盖了JVM、锁、并发、Ja

    2024年01月17日
    浏览(15)
  • [Vue]从数据库中动态加载阿里巴巴矢量图标的两种方式

    [Vue]从数据库中动态加载阿里巴巴矢量图标的两种方式

    记录一次在Vue中动态使用阿里巴巴矢量图标库 这是本人第一次使用阿里巴巴的矢量图标库,简单的导入和使用的话网上的教程很多,这里不多赘述,本人的需求是从数据库中加载出来并且显示到页面上,接下来简述一下如何实现。 以下代码均是本人实际推敲、测试可用后写

    2024年01月20日
    浏览(9)
  • 阿里巴巴开源的免费数据库工具Chat2DB

    阿里巴巴开源的免费数据库工具Chat2DB

    Chat2DB 是一款由阿里巴巴开源的免费数据库工具,它为开发人员提供了一个强大且易于使用的平台,用于存储和查询数据。与传统的数据库工具相比,Chat2DB 具有以下特点和优势: 多数据库支持 :Chat2DB 可以与多种类型的数据库进行集成,包括关系型数据库(如MySQL、PostgreS

    2024年02月11日
    浏览(11)
  • Chat2DB:阿里巴巴开源的聊天数据管理工具--实践

    Chat2DB:阿里巴巴开源的聊天数据管理工具--实践

    Chat2DB:阿里巴巴开源的聊天数据管理工具–实践 简介 ​ Chat2DB 是一款有开源免费的多数据库客户端工具,支持windows、mac本地安装,也支持服务器端部署,web网页访问。和传统的数据库客户端软件Navicat、DBeaver 相比Chat2DB集成了AIGC的能力,能够将自然语言转换为SQL,也可以将

    2024年02月09日
    浏览(16)
  • 【阿里巴巴1688API接口开发系列】数据采集获取,封装接口可加高并发,大数据中心项目

    【阿里巴巴1688API接口开发系列】数据采集获取,封装接口可加高并发,大数据中心项目

    首先以1688商品数据为例 item_get-获得1688商品详情 公共参数 名称 类型 必须 描述 key String 是 调用key(必须以GET方式拼接在URL中)注册Key和secret接入 secret String 是 调用密钥 api_name String 是 API接口名称(包括在请求地址中)[item_search,item_get,item_search_shop等] cache String 否 [yes,no]默认

    2024年02月13日
    浏览(8)
  • 推荐下阿里巴巴开源的数据库客户端工具Chat2DB

    推荐下阿里巴巴开源的数据库客户端工具Chat2DB

    github地址:https://github.com/alibaba/Chat2DB Chat2DB 是面向开发人员的免费多平台数据库工具。多种数据库一个工具。它用于查询、创建和管理数据库,数据库可以在本地、服务器或云端。支持 MySQL、PostgreSQL、Microsoft SQL Server、Oracle、H2等,未来我们会不断完善其他非关系型数据的支

    2024年02月11日
    浏览(13)
  • 第三代英特尔 至强 可扩展处理器(Ice Lake)和英特尔 深度学习加速助力阿里巴巴 Transformer 模型性能提升

    第三代英特尔 至强 可扩展处理器(Ice Lake)和英特尔 深度学习加速助力阿里巴巴 Transformer 模型性能提升

    第三代英特尔® 至强® 可扩展处理器采用了英特尔10 纳米 + 制程技术。相比于第二代英特尔® 至强® 可扩展处理器,该系列处理器内核更多、内存容量和频率更高。阿里巴巴集团和英特尔的技术专家共同探索了这些能力对人工智能应用的意义,特别是在与英特尔® 深度学习加

    2024年02月16日
    浏览(8)
  • 阿里巴巴集团

    阿里巴巴集团控股有限公司 (简称:阿里巴巴集团) 是马云带领下的18位创始人于1999年在浙江省杭州市创立的公司。 [272]  阿里巴巴集团经营多项业务,另外也从关联公司的业务和服务中取得经营商业生态系统上的支援。业务和关联公司的业务包括:淘宝网、天猫、聚划算

    2024年02月03日
    浏览(18)
  • Java阿里巴巴代码规范

    Java阿里巴巴代码规范

    想学习架构师构建流程请跳转:Java架构师系统架构设计 我们介绍了让代码规范的方案,下面我们就来说一下阿里的代码规范文档 1.1.1 反例 这种操作很容易产生难以排查的NPE异常 1.1.2 正例 入参以及出参,和参数传递类型是一致的 SimpleDateFormat 是线程不安全的类,一般不要定

    2024年02月10日
    浏览(16)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包