ApacheCon - 云原生大数据上的 Apache 项目实践

这篇具有很好参考价值的文章主要介绍了ApacheCon - 云原生大数据上的 Apache 项目实践。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Apache 软件基金会的官方全球系列大会 CommunityOverCode Asia(原 ApacheCon Asia)首次中国线下峰会将于 2023 年 8 月 18-20 日在北京丽亭华苑酒店举办,大会含 17 个论坛方向、上百个前沿议题。

字节跳动云原生计算团队在此次 CommunityOverCode Asia 峰会中深度参与并进行相关主题演讲,由 8 位同学围绕 4 个专题下的 6 个议题,分享 Apache 开源项目在字节跳动业务中的实践经验。此外,Apache Calcite PMC Member、Apache Flink Committer 李本超将参与 Keynote 演讲,分享参与开源贡献的经验与收获。

ApacheCon - 云原生大数据上的 Apache 项目实践,云原生,大数据,apache 

主题演讲

开源贡献难吗?

也许很多同学都有想过参与一些开源贡献,来提升自己的技术能力和影响力。但是理想跟现实之间通常有一些距离:因为工作太忙,没有时间参与;开源项目门槛太高,不知道怎么入门;尝试过一些贡献,但是社区响应度不高,没有坚持下去。本次 keynote,李本超会结合自己的经历,分享他在贡献开源社区过程中的一些小故事和思考,如何克服这些困难,最终在开源社区取得突破,并且在工作和开源贡献之间取得平衡。

李本超

字节跳动,Flink SQL 技术负责人

Apache Calcite PMC Member,Apache Flink Committer,毕业于北京大学,目前就职于字节跳动流式计算团队,Flink SQL 技术负责人。

专题演讲

专题:数据湖与数据仓库

基于 Flink 构建实时数据湖的实践

王正 火山引擎云原生计算研发工程师

闵中元 火山引擎云原生计算研发工程师

演讲简介:实时数据湖是现代数据架构的核心组成部分,它允许企业实时分析和查询大量数据。在这场分享中,我们将首先介绍实时数据湖目前存在的痛点,比如数据的高时效性,多样性,一致性和准确性等。然后介绍我们如何基于 Flink 和 Iceberg 构建实时数据湖,主要通过如下两部分展开:如何将数据实时入湖、如何使用 Flink 进行 OLAP 临时查询。最后介绍一下字节跳动在实时数据湖中的一些实践收益。

讲师简介:王正,于 2021 年加入字节跳动,就职于基础架构开放平台团队,主要负责 Serverless Flink 等方向研发;

闵中元,于 2021 年加入字节跳动,就职于基础架构开放平台团队,主要负责 Serverless Flink ,Flink OLAP 等方向研发。

专题:人工智能 / 机器学习

字节跳动深度学习批流一体训练实践

毛洪玥 字节跳动基础架构工程师

演讲简介:随着公司业务发展,算法复杂度不断提升,越来越多的算法模型在离线更新的基础上探索实时训练以提升模型效果。为实现复杂的离线和实时训练灵活编排、自由切换,能在更大范围内调度在离线计算资源,机器学习模型训练逐渐趋于批流一体化.本次将分享包括字节跳动机器学习训练调度框架的架构演进、批流一体实践、异构弹性训练等部分内容。并着重介绍在 MFTC(批流一体协同训练)场景下,多阶段多数据源混合编排、流式样本全局 Shuffle、全链路 Native 化,训练数据洞察等实践经验。

讲师简介:于 2022 年加入字节跳动,从事机器学习训练研发工作,主要负责大规模云原生批流一体 AI 模型训练引擎,支撑了包括抖音视频推荐、头条推荐、穿山甲广告、千川图文广告等业务。

字节跳动 Spark 支持万卡模型推理实践

刘畅 字节跳动基础架构工程师

张永强 字节跳动机器学习系统工程师

演讲简介:随着云原生的发展,Kubernetes 由于其强大的生态构建能力和影响力,使得包括大数据、AI 在内越来越多类型的负载应用开始向 Kubernetes 迁移,字节内部探索 Spark 从 Hadoop 迁移到 Kubernetes,使得作业云原生化运行。同时搜索有大量 GPU 需求量极大的离线批处理任务,随着潮汐任务上量,发现一系列问题:GPU 算力供给(卡时数)仍有较大缺口、单机房资源池规模无法匹配业务单位任务计算量增长、在线资源池算力浪费问题、缺乏统一平台入口。Spark 和 AML(应用机器学习)合作,通过 GPU 共享技术、混部 GPU 调度、Spark 引擎增强,平台及周边生态完善等途径,支持万张卡混部 GPU 模型推理离线计算,支持作业 80 亿多模态训练数据使用混部 GPU 7k 卡 7.5h 完成模型打分数据清洗,并且资源使用效率、稳定性均得到了显著提升。

讲师简介:刘畅,于 2020 年加入字节跳动,就职于基础架构批式计算团队,主要负责 Spark 云原生方向工作,Spark On Kubernetes 等方向研发;

张永强,于 2022 年加入字节跳动,就职于 AML 机器学习系统团队,参与构建大规模机器学习平台。

专题:数据存储与计算

字节跳动 MapReduce -> Spark 平滑迁移实践

魏中佳 字节跳动基础架构工程师

演讲简介:随着业务发展,字节跳动内部每天线上约运行 120 万 个 Spark 作业,与之相对比的是,线上每天依然约有两万到三万个 MapReduce 任务。作为一个历史悠久的批处理框架,从大数据研发的角度来看,MapReduce 引擎的运维面临了一系列问题。例如,框架更新迭代的的 ROI 较低,对于新的计算调度框架适配性较差等等。而从用户的角度来看, MapReduce 引擎的使用也存在一系列的问题。例如,计算性能不佳,需要额外的 Pipeline 工具管理串行运行的 Job,希望迁移 Spark 但是存量作业数量多且大量作业使用了 Spark 本身不支持的各种脚本。在此背景下,字节跳动 Batch 团队设计并实现了一套 MapReduce 任务平滑迁移 Spark 的方案,该方案使用户仅需对存量作业增加少量的参数或环境变量即可完成从 MapReduce 到 Spark 的平缓迁移,大大降低了迁移成本,并且取得了不错的成本收益。

讲师简介:2018 年加入字节跳动,现任字节跳动基础架构大数据开发工程师,专注大数据分布式计算领域,主要负责 Spark 内核开发、字节自研 Shuffle Service 开发。

字节跳动千亿文件 HDFS 集群实践

熊睦 火山引擎大数据存储研发工程师

演讲简介:随着大数据技术的深入发展,数据规模和使用复杂度越来越高,Apache HDFS 面临着新的挑战。在字节跳动,HDFS 即是传统 Hadoop 数仓业务的存储,也是存算分离架构计算引擎的底座,还是机器学习模型训练的存储底座。在字节跳动,HDFS 既搭建了服务于大规模计算资源调度跨多地区的存储调度能力提升计算任务稳定性;也提供了统合用户侧缓存、常规三副本、冷存的数据识别和冷热调度能力。本次分享介绍字节跳动内部如何认识新兴场景对传统大数据存储的新要求,并通过技术演进和运维体系建设,支持不同场景下的系统稳定。

讲师简介:主要负责大数据存储 HDFS 元数据服务演进和上层计算生态支持。

专题:云原生

字节跳动云原生 YARN 实践

邵凯阳 火山引擎云原生计算研发工程师

演讲简介:字节跳动内部离线业务具有庞大的规模,线上每天有数十万节点、数百万任务运行,每天使用的资源量达千万量级,内部由离线调度系统和在线调度系统分别负责离线业务和在线业务的调度管理。但随着业务规模发展,这一套系统暴露了一些短板:在离线属于两套系统,一些重大活动场景需要通过运维方式进行在离线资源转换,运维负担繁重,转换周期长;资源池不统一使得整体资源利用率不高,配额管控、机器运维等无法复用;大数据作业无法享受到云原生的各种好处,例如:可靠稳定的隔离能力、便捷的运维能力等。在离线系统亟待统一,而传统大数据引擎不是针对云原生设计难以直接云原生部署,各计算引擎和任务需要进行深度改造才能支持原先在 YARN 上的各种特性,改造成本巨大。基于此背景,字节跳动提出基于云原生的 YARN 解决方案 —— Serverless YARN,其 100% 兼容 Hadoop YARN 协议, Hadoop 生态下的大数据作业无需修改即可透明迁移到云原生系统上,在线资源和离线资源间可以高效灵活转换、分时复用,集群整体资源利用率得到显著提升。

讲师简介:在字节跳动基础架构负责离线调度相关工作,具有多年工程架构经验。

ApacheCon - 云原生大数据上的 Apache 项目实践,云原生,大数据,apache

 文章来源地址https://www.toymoban.com/news/detail-641914.html

到了这里,关于ApacheCon - 云原生大数据上的 Apache 项目实践的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Apache Hudi 在袋鼠云数据湖平台的设计与实践

    在大数据处理中,实时数据分析是一个重要的需求。随着数据量的不断增长,对于实时分析的挑战也在不断加大,传统的批处理方式已经不能满足实时数据处理的需求,需要一种更加高效的技术来解决这个问题。Apache Hudi(Hadoop Upserts Deletes and Incremental Processing)就是这样一种

    2024年02月06日
    浏览(41)
  • 查询速度提升15倍!银联商务基于 Apache Doris 的数据平台升级实践

    本文导读: 在长期服务广大规模商户的过程中,银联商务已沉淀了庞大、真实、优质的数据资产数据,这些数据不仅是银联商务开启新增长曲线的基础,更是进一步服务好商户的关键支撑。为更好提供数据服务,银联商务实现了从 Hadoop 到 Apache Doris 的架构升级,使数据 导入

    2024年02月02日
    浏览(54)
  • 代立冬:基于Apache Doris+SeaTunnel 实现多源实时数据仓库解决方案探索实践

    大家好,我是白鲸开源的联合创始人代立冬,同时担任 Apache DolphinScheduler 的 PMC chair 和 SeaTunnel 的 PMC。作为 Apache Foundation 的成员和孵化器导师,我积极参与推动多个开源项目的发展,帮助它们通过孵化器成长为 Apache 的顶级项目。 今天的分享的主题其实还是从开源到商业,

    2024年02月04日
    浏览(61)
  • Apache SeaTunnel:新一代高性能、分布式、海量数据集成工具从入门到实践

    Apache SeaTunnel 原名 Waterdrop,在 2021 年 10 月更名为 SeaTunnel 并申请加入 Apache孵化器。目前 Apache SeaTunnel 已发布 40+个版本,并在大量企业生产实践中使用,包括 J.P.Morgan、字节跳动、Stey、中国移动、富士康、腾讯云、国双、中科大数据研究院、360、Shoppe、Bilibili、新浪、搜狗、唯

    2024年02月03日
    浏览(64)
  • SeaTunnel毕业!首个国人主导的数据集成项目成为Apache顶级项目

    采访嘉宾 | 郭炜、高俊 编辑 | Tina 北京时间 2023 年 6 月 1 日,全球最大的开源软件基金会 Apache Software Foundation(以下简称 ASF)正式宣布 Apache SeaTunnel 毕业成为 Apache 顶级项目 (TLP, Top Level Project)。 Apache SeaTunnel 于 2021 年 10 月申请加入 Apache 孵化器,不到 2 个月,便以“全票通过

    2024年02月11日
    浏览(37)
  • 数据治理核心保障数据质量监控开源项目Apache Griffin分享

    @ 目录 概述 定义 为何要做数据质量监控 基本概念 特性 架构 安装 Docker部署 Docker 镜像批处理使用 Docker 镜像流处理使用 UI界面操作 Apache Griffin 官网地址 https://griffin.apache.org/ 源码release最新版本0.6.0 Apache Griffin 官网文档地址 https://griffin.apache.org/docs/quickstart.html Apache Griffin 源码

    2024年02月07日
    浏览(109)
  • 云原生网关Apache APISIX

    Apache APISIX 介绍 什么是Apache APISIX Apache APISIX 是一个动态、实时、高性能的云原生 API 网关,提供了负载均 衡、动态上游、灰度发布、服务熔断、身份认证、可观测性等丰富的流量管理功 能。可以使用 Apache APISIX 处理传统的南北向流量,也可以处理服务间的东 西向流量。同时

    2024年02月09日
    浏览(48)
  • Java项目-苍穹外卖-Day11-Apache ECharts数据统计

    主要是以下四项的统计,以不同形式的图形进行展示 自己去网站上看一哈,我不太懂前端 com.sky.controller.admin.ReportController com.sky.service.impl.ReportServiceImpl.java orderMapper orderMapper.xml Reportcontroller ReportServiceImpl orderMapper.xml reportController ReportServiceImpl orderMapper.xml

    2024年02月09日
    浏览(43)
  • 【云原生网关】Apache ShenYu 使用详解

    目录 一、前言 二、Apache ShenYu 介绍 2.1 为什么叫ShenYu 2.2 ShenYu特点 2.3 ShenYu架构图

    2024年02月08日
    浏览(44)
  • Apache RocketMQ,构建云原生统一消息引擎

    本文整理于 2023 年云栖大会林清山带来的主题演讲《Apache RocketMQ 云原生统一消息引擎》 演讲嘉宾: 林清山(花名:隆基),Apache RocketMQ 联合创始人,阿里云资深技术专家,阿里云消息产品线负责人。国际消息领域专家,致力于消息、实时计算、事件驱动等方向的研究与探索

    2024年02月04日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包