大数据入门之Presto/Trino

这篇具有很好参考价值的文章主要介绍了大数据入门之Presto/Trino。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

What is Presto ?

大数据入门之Presto/Trino

  • Presto是由Facebook开发的分布式sql查询引擎,用来进行高速、实时的数据查询
  • Presto的产生是为了解决Hive的MapReduce模型太慢且不能通过BI等工具展现HDFS的问题
  • Presto是一个计算引擎,它不存储数据,通过丰富的connector获取第三方服务的数据,并支持扩展。可以通过连接Hive,来实现快速query hive table
  • 可以跨数据源进行联合查询

查询例子:

# 联合查询hive的表和mysql的表
select * from hive.testdb.tableA a join mysql.testdb.tableB b
where a.id = b.id

show catalogs
show schemas

Presto 数据模型:

  • Catalog: 即数据源,Hive, Mysql都是数据源,Presto可以连接多个Hive,Mysql
  • Schema: 类比于database,一个catalog下有多个schema
  • table: 数据表,一个schema下有多个数据表

Presto 和Trino的关系

2020年12月PrestoSQL 更名为 Trino,所以Trino实际上是Prestode rebrand,至于为什么? 参考

说到底是Presto在Facebook的几个核心创始人员和公司闹掰了,然后出去后创立了新的公司为了Presto/Trino的发展。但是Facebook已经注册了Presto的商标权,所以不得已只能改名字了。

Presto架构

大数据入门之Presto/Trino
  • Presto从Hive Metastore获取元数据信息;
  • 获取元数据信息后,从HDFS访问数据;
  • 最终讲结果返回给client。
大数据入门之Presto/Trino
  • Coordinator负责解析SQL语句,生成查询计划并访问Hive metastore,分发执行任务
  • Discovery Server负责维护Coordinator和worker的关系,通常内嵌于Coordinator节点
  • Worker负责执行查询任务以及于HDFS进行交互读取数据。

Presto VS Spark

大数据入门之Presto/Trino文章来源地址https://www.toymoban.com/news/detail-464765.html

pyhive访问presto

  • pip package: presto
  • 或者用sqlalchemy

到了这里,关于大数据入门之Presto/Trino的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • TensorFlow是由Google开发的开源深度学习框架

    TensorFlow是由Google开发的开源深度学习框架。它提供了一种灵活而高效的方式来构建和训练神经网络模型。 TensorFlow的基本概念包括: Tensor:TensorFlow中的核心数据结构,表示多维数组。可以是标量、向量、矩阵或更高维度的张量。 图(Graph):TensorFlow使用图来表示计算任务。

    2024年01月16日
    浏览(49)
  • Presto从入门到精通以及案例实操系列

    Presto最初由Facebook公司开发,旨在解决Facebook内部大规模数据处理和数据分析的问题。在传统的Hadoop生态圈中,MapReduce作为数据处理框架,虽然能够处理海量数据,但是其查询性能却比较低下,尤其是对于需要进行交互式查询(如数据探索、数据挖掘等)的应用场景,更是不够

    2024年02月06日
    浏览(40)
  • 数据库:Hive转Presto(二)

    继续上节代码,补充了replace_func函数,        

    2024年02月07日
    浏览(37)
  • 大数据:Trino简介及ETL场景的解决方案

    Presto 在 Facebook 的诞生最开始是为了填补当时 Facebook 内部实时查询和 ETL 处理之间的空白。Presto 的核心目标就是提供交互式查询,也就是我们常说的 Ad-Hoc Query,很多公司都使用它作为 OLAP 计算引擎。但是随着近年来业务场景越来越复杂,除了交互式查询场景,很多公司也需要

    2024年02月08日
    浏览(40)
  • Iceberg-Trino 如何解决链上数据面临的挑战

    区块链数据公司,在索引以及处理链上数据时,可能会面临一些挑战,包括: 海量数据。随着区块链上数据量的增加,数据索引将需要扩大规模以处理增加的负载并提供对数据的有效访问。因此,它导致了更高的存储成本;缓慢的指标计算和增加数据库服务器的负载。 复杂

    2024年02月02日
    浏览(45)
  • presto插件机制揭秘:探索无限可能的数据处理舞台

    :Presto Plugin 本文源码环境: presto: prestoDb 0.275版本 在Presto框架中插件机制设计是一种非常常见和强大的扩展方式。它可以使软件系统更加灵活和可扩展,允许用户根据自己的需求和偏好自定义和扩展系统功能。在 Presto 这样的分布式 SQL 查询引擎中,插件机制发挥着重

    2024年02月05日
    浏览(73)
  • 社交媒体数据恢复:Facebook

    在使用Facebook的过程中,可能会出现数据丢失的情况,如误删了重要的帖子、照片或其他文件。在这种情况下,你可以尝试以下方法来恢复Facebook的数据。 首先,确保你备份了Facebook的数据。如果你定期备份数据,那么恢复起来就会更加容易。如果你没有备份,那么可以尝试以

    2024年04月27日
    浏览(42)
  • 07_Hudi案例实战、Flink CDC 实时数据采集、Presto、FineBI 报表可视化等

    7.第七章 Hudi案例实战 7.1 案例架构 7.2 业务数据 7.2.1 客户信息表 7.2.2 客户意向表 7.2.3 客户线索表 7.2.4 线索申诉表 7.2.5 客户访问咨询记录表 7.3 Flink CDC 实时数据采集 7.3.1 开启MySQL binlog 7.3.2 环境准备 7.3.3 实时采集数据 7.3.3.1 客户信息表 7.3.3.2 客户意向表 7.3.3.3 客户线索表 7

    2024年02月13日
    浏览(51)
  • Facebook HiPlot “让理解高维数据变得容易”

    在这个全球信息化的时代,数据量呈爆炸式增长,数据的复杂性也是如此。如何有效地处理高维数据并找到隐藏在其中的相关性和模式是一个严峻的挑战。近年来,可视化和可视化分析已被应用于该任务,并取得了一些积极成果。Facebook的新HiPlot是一个轻量级的交互式可视化

    2024年02月11日
    浏览(35)
  • 社交媒体数据分析:解读Facebook用户行为

    在当今数字化时代,社交媒体已经成为人们生活不可或缺的一部分,而Facebook作为这个领域的巨头,承载了数十亿用户的社交活动。这庞大的用户群体产生了海量的数据,通过深度数据分析,我们能够深入解读用户行为,从而更好地满足用户需求、提升用户体验,同时为平台

    2024年01月21日
    浏览(56)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包