作业帮 x TiDB丨多元化海量数据业务的支撑

这篇具有很好参考价值的文章主要介绍了作业帮 x TiDB丨多元化海量数据业务的支撑。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

导读

作业帮是一家成立于 2015 年的在线教育品牌,致力于用科技手段助力教育普惠。经过近十年的积累,作业帮运用人工智能、大数据等技术,为学生、老师、家长提供学习、教育解决方案,智能硬件产品等。随着公司产品和业务场景越来越丰富,数据量越来越大,业务方对数据库的使用需求也越来越多元化。本文介绍了作业帮对 TiDB 的探索历程,以及逐渐落地多个业务场景的使用实践。

TiDB 在作业帮的探索和推广

作业帮内部最开始接触的版本是 TiDB v4.0.9。相较于 TiDB v3.x,v4.0.9 在性能、管理、易用性等方面都有了质的提升,同时 TiDB 的生态组件以及社区也都达到了非常完善的程度,可以说是一个标志性的版本。2020 年,我们正式开始调研测试 TiDB v4.0.9, 以实现团队在分布式数据库的技术储备,从而更好地服务公司的业务需求。

1. 探索期: 使用 TiDB 隔离对在线 MySQL 集群有性能影响的查询请求

研发人员需要不定时查询线上实时数据,以此来确定业务数据的情况或者对部分业务数据做汇总分析。

● 引入 TiDB 之前:业务人员是直连到 MySQL 从库查询数据,如果扫描的数据量太大经常会引起线上 MySQL 节点性能抖动甚至机器的 io/cpu 资源瓶颈。

● 引入 TiDB 之后:通过数据同步工具 DM 将 MySQL 的数据以全量+实时增量的方式同步到 TiDB 中,实现在线、离线请求的隔离性。

在这个探索阶段,一方面满足了离线查询的隔离性的要求,另一方面也熟悉了 TiDB 及其生态组件的特性以及使用方法。

作业帮 x TiDB丨多元化海量数据业务的支撑,数据库,tidb,TiDB,云原生,开源

2、推广期:内部分享+主动出击

经过半年左右时间的使用,在对 TiDB 有一定了解的基础上,我们开始在公司内部进行 TiDB 相关的技术分享,向研发人员介绍 TiDB 的一些特性和在大数据量场景下的优势,并主动接触各个业务线去寻找合适的使用场景。研发人员也陆续将一些业务 内部使用的报表服务 接入到离线 TiDB 集群中。

作业帮 x TiDB丨多元化海量数据业务的支撑,数据库,tidb,TiDB,云原生,开源

在线业务落地从 0-1

在各个团队使用和熟悉 TiDB 一段时间后,我们开始针对已有业务的痛点或者未来新业务的规划,逐渐将视野转移到 TiDB。通过配合业务一起测试验证,开始正式将在线业务迁移到 TiDB 中。

1、报表平台使用 TiDB 突破存储&性能瓶颈

作业帮的报表服务每天要导入大量来自各个业务线的文件数据,来实现最终的数据大盘展示。随着业务线越来越多以及 MySQL 单实例主机的磁盘限制,报表服务平台逐渐显现出存储受限以及数据展示响应慢,甚至无法响应等问题。

我们通过 DM 将数据同步到 TiDB 中,经过业务验证,TiDB 对 SQL 达到了高度兼容性。同时,对比使用 MySQL 的耗时,TiDB 减少 80% 的时间,效果远超预期。随着 DM 同步稳定性的提高,报表平台也将一些直连线上 MySQL 的报表服务改成使用 TiDB 作为数据源。

经过改造,报表服务最终架构如下:

作业帮 x TiDB丨多元化海量数据业务的支撑,数据库,tidb,TiDB,云原生,开源

2、业务流水数据

业务流水数据业务的主要特点是每日写入数据量特别大,而且需要保存时间比较长。在公司的多个业务线中,只要是发展到一定阶段,使用 MySQL 存储的数据最终都会遇到存储瓶颈。此时 TiDB 便是非常好的一种解决方案。

在线业务落地从1-N

得益于 DM 同步数据的可靠性以及后面 TiDB-5.x 版本的兼容性、稳定性,作业帮有些业务逐渐将性能采集数据、用户访问记录、业务日志等业务也迁移到 TiDB。同时,在人工智能爆发的背景下,越来越多的探索性业务天然需要存储海量的数据,TiDB 自然成为首选方案。当然,线上还有很多核心业务不会轻易更换数据存储方案,那么对历史数据的归档使用 TiDB 也是目前的标准方案。

从 TiDB 4.0 版本开始,TiDB 加入了 TiFlash 列存引擎,并且在之后的版本中不断增强。如果业务有任何复杂查询需求,直接就可以在 TiDB 集群里通过增加 TiFlash 节点解决一些比较复杂的查询。

作业帮 x TiDB丨多元化海量数据业务的支撑,数据库,tidb,TiDB,云原生,开源

总结以及未来展望

现在,TiDB 在作业帮内部使用中已经可以独当一面了。目前,作业帮已经部署了几十套 TiDB 集群,总体数据量规模超过百 TB。在这些集群中,大部分采用的是 TiDB 5.4 版本,有一半已经升级到 6.5 版本。如果大家还在用 v3.x 版本的话,建议可以采用一些比较保险的方法测试升级到新的版本。作业帮从 v4.0.9 版本一路不断升级上来,整体感受是越来越稳定,让人比较安心,升级过程也非常丝滑,业务几乎没有任何感知。

最近有看到消息说杭州银行已经在核心账务系统上线 TiDB 6.5.6 版本,到 2024 年我们应该也会全部升级到这个版本。

最后,也说一下对 TiDB 的希望:文章来源地址https://www.toymoban.com/news/detail-836922.html

  1. 希望 TiDB 能有不依赖于 CDC 的主备集群方案,一方面可以做异地机房的灾备,另一方面可以作为升级回滚的方案,避免升级之后出现业务不兼容的情况;
  2. 探索使用资源管控方案 (Resource Control)。对于 MySQL 分库分表的业务,无法将多个分集群同步到同一个 TiDB 集群,会出现库名冲突的情况;
  3. SQL 限流或者拦截功能:对于资源消耗异常高的 SQL,可以自动进行降级处理,避免将集群资源耗尽,集群雪崩。

到了这里,关于作业帮 x TiDB丨多元化海量数据业务的支撑的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Web3 治理实践探讨:如何寻找多元化发展路径?

    Web3 领域变革正崭露头角,而社区治理开始成为行业热议话题。 Web3 项目如何探寻多元化建设的解困路径 ,究竟是治理模型的精进成为首要问题,还是吸纳更多资金与组织教育培训,让开发者成为项目建设的中坚力量? 本期 TinTinWeekly 带你寻找这些问题的答案! 10 月 19 日 

    2024年02月08日
    浏览(33)
  • 数字人唇形同步技术:AIGC多元化应用的关键

    数字人是指利用计算机技术生成的虚拟人物形象,通过深度学习算法和模型来实现高度逼真的外貌特征和自然动作表现。在数字人领域中,唇形同步(Lip Sync)是非常重要的一环,直接影响数字人的逼真程度。现有的数字人唇形同步技术包括Wav2Lip、DeepFake、PaddleGAN、Audio2Face、

    2024年02月09日
    浏览(28)
  • 上门服务小程序系统|多元化服务和高效便捷的服务体验

    现代社会的快节奏生活让人们越来越追求便捷与效率,而上门服务系统应运而生,成为了现代人生活中的新选择。通过在家就能享受各种服务,不仅省时省力,还能提供个性化的服务体验。  上门服务系统的出现,使得各类家政、维修、美容等服务都可以方便的送到消费者家

    2024年02月22日
    浏览(33)
  • 极值理论 EVT、POT超阈值、GARCH 模型分析股票指数VaR、条件CVaR:多元化投资组合预测风险测度分析...

    本文用 R 编程语言极值理论 (EVT) 以确定 10 只股票指数的风险价值(和条件 VaR) ( 点击文末“阅读原文”获取完整 代码数据 )。 使用 Anderson-Darling 检验对 10 只股票的组合数据进行正态性检验,并使用 Block Maxima 和 Peak-Over-Threshold 的 EVT 方法估计 VaR/CvaR。最后,使用条件异向

    2024年02月17日
    浏览(42)
  • FlinkCDC实现主数据与各业务系统数据的一致性(瀚高、TIDB)

             文章末尾附有flinkcdc对应瀚高数据库flink-cdc-connector代码下载地址         目前项目有主数据系统和N个业务系统,为保障“一数一源”,各业务系统表涉及到主数据系统的字段都需用主数据系统表中的字段进行实时覆盖,这里以某个业务系统的一张表举例说明:

    2024年02月03日
    浏览(27)
  • TiDB 7.1 LTS 发版:为关键业务提供业务稳定性和多租户场景支持

    近日,企业级开源分布式数据库厂商 PingCAP 正式发布 TiDB 7.1 版本,这也是 2023 年度发布的首个 LTS(Long Term Support) 版本,汇集了来自 20+ 个真实场景带来的功能增强,累计优化和修复 140+ 功能,旨在提升关键业务的稳定性和性能,帮助开发人员和数据库管理员提高生产力并进

    2024年02月08日
    浏览(32)
  • TiDB v7.1.0 跨业务系统多租户解决方案

    本文介绍了 TiDB 数据库的资源管控技术,并通过业务测试验证了效果。资源管控技术旨在解决多业务共用一个集群时的资源隔离和负载问题,通过资源组概念,可以限制不同业务的计算和 I/O 资源,实现资源隔离和优先级调度,提高系统利用率和稳定性。 随着业务对 TiDB 的使

    2024年02月13日
    浏览(27)
  • 三地五中心(ldc(逻辑数据中心)单元化)和容灾

    什么是LDC LDC 的全称为: Logic Data Center, 逻辑数据中心,之所以叫LDC,是跟传统的IDC( Internet Data Center )相比而提出来的概念。 IDC 相信大家都很清楚,就是物理的数据中心,说白了就是能够建站的物理机房。 LDC(逻辑数据中心),核心架构思想就是不管你物理机房部署是怎样

    2024年02月04日
    浏览(35)
  • AI大模型探索之路-训练篇5:大语言模型预训练数据准备-词元化

    AI大模型探索之路-训练篇1:大语言模型微调基础认知 AI大模型探索之路-训练篇2:大语言模型预训练基础认知 AI大模型探索之路-训练篇3:大语言模型全景解读 AI大模型探索之路-训练篇4:大语言模型训练数据集概览 在自然语言处理领域,大语言模型预训练数据准备是一个重

    2024年04月28日
    浏览(35)
  • 【探索 Kubernetes|作业管理篇 系列 16】离线业务 Job、CronJob

    大家好,我是秋意零。 在上一篇中,我们讲解了 DaemonSet 控制器,相信你以及理解了其的工作过程,分为三部。一是,获取所有 Node 节点中的 Pod;二是,判断是否有符合 DaemonSet 管理的 Pod;三是,通过“亲和性”和“容忍”来精确控制并保证 Pod 在目标节点运行。 今天的内容

    2024年02月12日
    浏览(29)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包