数据剖析更灵活、更快捷,火山引擎 DataLeap 动态探查全面升级

这篇具有很好参考价值的文章主要介绍了数据剖析更灵活、更快捷,火山引擎 DataLeap 动态探查全面升级。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群

近期,火山引擎 DataLeap 上线“动态探查”能力,为用户提供全局数据视角、完善的抽样策略,提高数据探查的灵活度以及响应速率。

传统的数据探查是基于库表的全量探查,由后端引擎执行,通过自动化检查数据成分、关系、格式等,以报告形式展示探查后列的统计分布结果,避免数据质量导致项目开发、上线出现问题,主要应用于元数据管理、数据研发、数仓开发以及数据治理等环节,满足使用者对数据质量初探的需求。

但在数据量级大、用户需要探查数据明细或需要数据预处理操作时,由于传统的数据探查要对全量表进行检测,导致无法实时产出报告、等待时间变长,灵活度低,且无法跟踪数据明细。

针对上述痛点,火山引擎 DataLeap 在传统数据探查基础能力上,进一步增强了动态探查能力。其特点在于:

  • 基于大数据预览探查,支持对数据进行函数级别预处理。

  • 数据探查结果秒级更新、实时响应。

  • 与数据监控联动,有效打通数据探查到质量分析闭环。

据介绍,DataLeap 动态探查的对象是抽样数据,支持连续抽样(按照默认顺序连续抽样前 x 条数据)、过滤抽样(使用 where 过滤语句过滤)、随机抽样(随机抽样 x 条数据)3 种模式,用户可对数据进行预处理,实时、动态获得统计分布结果,具备灵活度高、实效性强的特点。

火山引擎 DataLeap 动态探查使用流程

 

除此之外,DataLeap 动态探查具备对探查结果基础分析能力,包含列删除、过滤、排序等。用户对探查结果的每一次操作都会被记作一次操作,多次操作串联成操作栈,DataLeap 支持用户自由修改或删减操作栈里的步骤,并实时查看最新结果。

火山引擎 DataLeap 动态探查操作栈

 

火山引擎 DataLeap 数据探查报告

 

目前,DataLeap 动态探查可以应用在以下三个场景中:

  • 场景 1:用于分析型探查场景,用户可利用 hive 基本函数,如 get_json_object,将列进行数据提取。

  • 场景 2:与探查报告打通,用户点击探查报告中的统计值,即可跳转到数据表格,并应用具体行过滤函数。

  • 场景 3:用于数据过滤后的探查场景,用户通过过滤和分组条件进行写条件探查,例如校验 status=0 时 current_price 为 0 的占比。

 

DataLeap 是火山引擎数智平台旗下产品,提供数据集成、开发、运维、治理、资产、安全等能力,帮助用户提升数据研发效率、降低管理成本,加速推动企业的数字化转型,目前已经应用于泛互联网、制造、新零售、汽车等领域。

 

点击跳转火山引擎DataLeap了解更多文章来源地址https://www.toymoban.com/news/detail-438779.html

到了这里,关于数据剖析更灵活、更快捷,火山引擎 DataLeap 动态探查全面升级的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 火山引擎 DataLeap 计算治理自动化解决方案实践和思考

    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群   【导读】本文旨在探讨火山引擎 DataLeap 在处理计算治理过程中所面临的问题及其解决方案,并展示这些解决方案带来的实际收益。主要内容包括: 探讨面临的痛点和挑战 提供自

    2024年02月05日
    浏览(38)
  • 开发调试更便捷!火山引擎 DataLeap 提供 Notebook 交互式开发体验

    更多技术交流、求职机会,欢迎关注 字节跳动数据平台微信公众号,回复【1】进入官方交流群 Notebook 是一种支持 REPL 模式的开发环境。 所谓「REPL」,即「读取-求值-输出」循环:输入一段代码,立刻得到相应的结果,并继续等待下一次输入。Notebook 通常使得探索性的开发和

    2024年02月12日
    浏览(25)
  • 火山引擎 DataLeap 构建Data Catalog系统的实践(二):技术与产品概览

      元数据的接入 元数据接入支持T+1和近实时两种方式 上游系统:包括各类存储系统(比如Hive、 Clickhouse等)和业务系统(比如数据开发平台、数据质量平台等) 中间层: ETL Bridge:T+1方式运行,通常是从外部系统拉取最新元数据,与当前Catalog系统的元数据做对比,并更新差

    2024年02月15日
    浏览(34)
  • 火山引擎DataLeap如何解决SLA治理难题(二):申报签署流程与复盘详解

    火山引擎DataLeap SLA保障的前提是先达成SLA协议。在SLA保障平台中,以 申报单签署 的形式达成SLA协议。平台核心特点是 优化了SLA达成的流程 ,先通过 “系统卡点计算”减少待签署任务的数量 ,再通过 “SLA推荐计算”自动签署部分任务,最后为剩下的待签署任务智能提供合适

    2024年02月15日
    浏览(36)
  • 火山引擎 Iceberg 数据湖的应用与实践

    在云原生计算时代,云存储使得海量数据能以低成本进行存储,但是这也给如何访问、管理和使用这些云上的数据提出了挑战。而 Iceberg 作为一种云原生的表格式,可以很好地应对这些挑战。本文将介绍火山引擎在云原生计算产品上使用 Iceberg 的实践,和大家分享高效查询、

    2024年02月09日
    浏览(25)
  • 火山引擎DataTester:A/B实验平台数据集成技术分享

    DataTester的数据集成系统,可大幅降低企业接入A/B实验平台门槛。   当企业想要接入一套A/B实验平台的时候,常常会遇到这样的问题: 企业已经有一套埋点系统了,增加A/B实验平台的话需要重复做一遍埋点,费时费力; 企业有多个客户端和数据中台并行的情况,这些不同来源

    2024年02月04日
    浏览(29)
  • 火山引擎 ByteHouse:只需 2 个方法,增强 ClickHouse 数据导入能力

    更多技术交流、求职机会,欢迎关注 字节跳动数据平台微信公众号,回复【1】进入官方交流群   作为企业数字化建设的必备要素,易用的数据引擎能帮助企业提升数据使用效率,更好提升数据应用价值,夯实数字化建设基础。 数据导入是衡量 OLAP 引擎性能及易用性的重要标

    2024年02月08日
    浏览(31)
  • 火山引擎云搜索服务升级云原生新架构;提供数十亿级分布式向量数据库能力

    从互联网发展伊始,搜索技术就绽放出了惊人的社会和经济价值。随着信息社会快速发展,数据呈爆炸式增长,搜索技术通过数据收集与处理,满足信息共享与快速检索的需求。 云搜索服务 ESCloud 是火山引擎提供的 完全托管在线分布式搜索服务 ,兼容 Elasticsearch、Kibana 等软

    2024年02月16日
    浏览(32)
  • 死磕“增长”:火山引擎的实用主义

    作者 | 曾响铃 文 | 响铃说 在刘慈欣的科幻小说《三体》中,地外文明为了封锁地球科技,在天文台向地球科学家展现了「宇宙闪烁」这一奇观,试图颠覆人类的认知,从而影响科技进步,促使地球科技发展陷入停滞。 如今,「宇宙闪烁」一词被火山引擎用到了4月18日的20

    2024年02月06日
    浏览(27)
  • 火山引擎边缘云,助力业务敏捷创新

    [中国,上海,4 月 18 日]2023 春季火山引擎 FORCE 原动力大会正式举办。大会主论坛,火山引擎总裁谭待围绕云上增长三要素发表了重要演讲。在敏捷迭代专题中,谭待分享了火山引擎边缘云连接与计算无处不在的理念,并于现场正式发布多云 CDN 产品。 谭待表示,在负载分布

    2023年04月21日
    浏览(29)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包