【创新项目探索】大数据服务omnidata-hive-connector介绍

这篇具有很好参考价值的文章主要介绍了【创新项目探索】大数据服务omnidata-hive-connector介绍。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

omnidata-hive-connector介绍

omnidata-hive-connector是一种将大数据组件Hive的算子下推到存储节点上的服务,从而实现近数据计算,减少网络带宽,提升Hive的查询性能。目前支持Hive on Tez。omnidata-hive-connector已在openEuler社区开源。

OmniData架构

OmniData是算子下推的总称。OmniData主要由以下四个部分组成:
1.  OmniData Client属于开源的部分,为不同的引擎提供相应的插件。对于Hive引擎,omnidata-hive-connector作为OmniData Client,并通过HAF注解和编译插件能力,实现自动下推任务到存储节点的OmniData Server中。
2.  Haf Host为lib库,部署在计算节点,对外提供任务卸载的能力,把任务下推到Haf Offload。
3. Haf Offload为lib库,部署在存储节点提供任务执行的能力,用来执行OmniData Server的作业。
4. OmniData Server提供算子下推的执行能力,接收Haf Host下推下来的任务。

【创新项目探索】大数据服务omnidata-hive-connector介绍,hive,hadoop,数据仓库,大数据,linux,操作系统

omnidata-hive-connector功能

1.  实现将Hive的Filter、Aggregation和Limit算子下推到存储节点进行计算,提前将数据过滤,降低网络传输数据量,提升性能。

2.  实现插件化的方式注册给Hive,以松耦合的方式实现算子的下推,可通过特性开关激活或使能。

3.  实现HDFS/Ceph文件系统的下推。

4.  实现Orc/Parquet文件存储格式的下推。

5.  实现Hive内置UDF(cast、instr、length、lower、replace、substr和upper)的下推。

omnidata-hive-connector应用场景

在大数据组件Hive典型硬件配置的存算分离场景下,分别运行标准测试用例TPC-H和omnidata-hive-connector。

可以看出运行omnidata-hive-connector后,10条SQL性能平均提升40%以上

【创新项目探索】大数据服务omnidata-hive-connector介绍,hive,hadoop,数据仓库,大数据,linux,操作系统

omnidata-hive-connector主要优化方法

1.  基于数据选择率,做到动态的下推。

omnidata-hive-connector通过Hive统计信息计算数据选择率(选择率越低,过滤的数据量越多),通过参数设置下推的选择率阈值,omnidata-hive-connector就能够动态地将选择率低于阈值的算子推到存储节点上执行,实现存储节点在本地读取数据进行计算,再将计算过滤之后的数据集通过网络返回到计算节点,提升网络传输效率,优化性能。除了数据选择率,还会根据算子是否支持,剩余资源是否足够等条件进行判断。

【创新项目探索】大数据服务omnidata-hive-connector介绍,hive,hadoop,数据仓库,大数据,linux,操作系统

2.  Filter的部分下推。

当一个Filter中同时存在支持下推和不支持下推的算子时,omnidata-hive-connector对不支持的算子构造成新的Filter走原生Hive计算流程,对支持下推的算子重新计算数据选择率并根据新的选择率判断是否下推。

【创新项目探索】大数据服务omnidata-hive-connector介绍,hive,hadoop,数据仓库,大数据,linux,操作系统

3.  存算协同,合理利用计算资源。

omnidata-hive-connector将算子下推到存储节点执行计算,可以有效地降低计算节点的CPU使用率,并且能将存储节点的CPU使用起来,提升总体计算效率。以TPC-H的SQL为例,优化前计算节点CPU平均使用率60%以上,优化后,计算节点CPU平均使用率在40%左右。

【创新项目探索】大数据服务omnidata-hive-connector介绍,hive,hadoop,数据仓库,大数据,linux,操作系统

【创新项目探索】大数据服务omnidata-hive-connector介绍,hive,hadoop,数据仓库,大数据,linux,操作系统

4.  提前过滤数据,减少网络传输。

数据的提前过滤是omnidata-hive-connector性能收益的主要来源,在存储节点过滤数据,减少网络传输,减少计算节点处理的数据量。

以TPC-H的SQL为例,SQL中含有多个Filter,优化前的算子需要跨网络从远端存储节点读取近60亿行的数据;优化后只需要传输过滤后的有效数据4000万行。执行效率提升60%以上。

【创新项目探索】大数据服务omnidata-hive-connector介绍,hive,hadoop,数据仓库,大数据,linux,操作系统

omnidata-hive-connector后续规划

本项目已开源在openEuler社区,omnidata-hive-connector特性会积极地支持新功能,后续规划如下:

1. 支持timestamp和decimal数据格式。

2. 支持BloomFilter算子的下推。

3. 支持用户自定义函数的下推。

代码地址:

https://gitee.com/openeuler/omnidata-hive-connector

欢迎感兴趣的朋友们参与到openEuler Bigdata SIG,探讨大数据领域技术。文章来源地址https://www.toymoban.com/news/detail-702459.html

到了这里,关于【创新项目探索】大数据服务omnidata-hive-connector介绍的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 探索创新:LLAMA Index - 一个智能数据分析利器

    项目地址:https://gitcode.com/run-llama/llama_index LLAMA Index 是一款强大的数据预处理和分析工具,旨在简化大数据处理过程,帮助数据科学家、分析师及开发者更高效地探索和理解数据。该项目基于Python构建,利用先进的机器学习算法,提供了一套自动化的工作流程,让用户可以轻松

    2024年04月14日
    浏览(26)
  • AI驱动的大数据创新:探索软件开发中的机会和挑战

    🎈个人主页:程序员 小侯 🎐CSDN新晋作者 🎉欢迎 👍点赞✍评论⭐收藏 ✨收录专栏:大数据系列 ✨文章内容: 🤝希望作者的文章能对你有所帮助,有不足的地方请在评论区留言指正,大家一起学习交流!🤗 随着人工智能(AI)和大数据技术的迅速发展,软件开发领域正

    2024年02月11日
    浏览(30)
  • 浅谈GPT在数据库重构项目中的创新应用

    当我们对《流浪地球2》中人工智能MOSS产生无尽的科幻联想之际,GPT已经通过大规模数据预训练,拥有了理解、生成文本的能力,并在多个行业引发了巨大冲击,从客户服务到市场营销,从医疗健康到教育,都带来了颠覆性的变革,AI元年悄然而至。 在软件研发领域,它能够

    2024年02月08日
    浏览(39)
  • 探索未来外贸电商系统的创新架构

    在全球化、数字化的时代背景下,外贸电商行业呈现出蓬勃发展的态势。为了适应市场竞争的激烈和用户需求的多样化,外贸电商系统的架构设计显得尤为重要。本文将深入探讨未来外贸电商系统的创新架构,以期为行业发展提供新的思路和方向。 随着全球市场的开放和互联

    2024年04月11日
    浏览(25)
  • 云原生 DaaS 服务:实现数据驱动的创新和价值(数据库、缓存、大数据等)

    随着数据在现代企业中的地位不断提升,数据管理和分析成为了业务成功的关键。在这个信息爆炸的时代,如何高效地管理、处理和分析海量数据成为了每个数据企业面临的重要挑战。为了应对这一挑战,云原生数据即服务(DaaS)应运而生,为企业提供了一种全新的数据管理

    2024年04月15日
    浏览(25)
  • 探索Xiotman:物联网软件架构的创新之路

    🚀🚀众所周知,物联网是当今科技领域的一个热门话题,它指的是 通过互联网将各种物理设备、传感器、终端等连接起来,实现信息的交换和通信 。物联网的应用场景非常广泛,涉及智能家居、智能城市、智能医疗、智能工业等领域。然而,物联网终端应用的开发也面临着

    2024年02月09日
    浏览(32)
  • 探索 The Sandbox 教育蓝图:深入数字创新

    在充满活力的区块链和 Web3 游戏世界中,The Sandbox已经超越了娱乐平台的角色。它站在教育运动的前沿,旨在揭开区块链技术、NFT 和 Web3 游戏错综复杂的神秘面纱。The Sandbox 的使命是吸引新一波十亿用户,它正在与具有远见卓识的教育合作伙伴进行合作,将可玩性体验与全面

    2024年01月19日
    浏览(27)
  • 探索未来餐饮:构建创新连锁餐饮系统的技术之旅

    随着数字化时代的发展,连锁餐饮系统的设计和开发不再仅仅关乎订单处理,更是一场充满技术创新的冒险。在本文中,我们将深入研究连锁餐饮系统的技术实现,带你探索未来餐饮业的数字化美食之旅。 在设计连锁餐饮系统时,强大的后端服务是不可或缺的一部分。以下是

    2024年02月02日
    浏览(33)
  • [方案实操|数据技术]数据要素十大创新模式(1):基于区块链的多模态数据交易服务平台

    “  区块链以其公开共享、去中心化、不可篡改、可追溯和不可抵赖等优势,吸引了包括金融业、医疗业和政府部门等众多利益相关方的极大兴趣,被认为是解决数据安全交换问题的合适方案。 ” 武汉东湖大数据科技股份有限公司凭借 基于区块链的多模态数据交易服务平台

    2024年04月17日
    浏览(30)
  • 阿里云云原生助力安永创新驱动力实践探索

    云原生正在成为新质生产力变革的核心要素和企业创新的数字基础设施。2023 年 12 月 1 日,由中国信通院举办的“2023 云原生产业大会”在北京召开。在大会“阿里云云原生”专场, 安永科技咨询合伙人王祺 分享了对云原生市场的总览及趋势洞见,及安永基于阿里云容器服务

    2024年01月21日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包