Hive on Zeppelin

这篇具有很好参考价值的文章主要介绍了Hive on Zeppelin。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

**

Hive on Zeppelin

**

官网:zeppelin.apache.org

做大数据的人应该对Hive不陌生,Hive应该是大数据SQL引擎的鼻祖。历经多个版本的改进,现在的Hive3已经具备比较完善的ACID功能,能够同时满足交互式查询和ETL 两种场景。
那怎么来用hive呢 ?如果你还在用beeline来跑hive sql的话,你就弱爆了,来看看强大的Zeppelin能够给你带来什么吧

Hive on Zeppelin,hive,hadoop,zeppelin
配置Hive Interpreter
未启用Shiro
未启用kerberos
Hive on Zeppelin,hive,hadoop,zeppelin
启用kerberos
Hive on Zeppelin,hive,hadoop,zeppelin

启用Shiro
未启用kerberos

Hive on Zeppelin,hive,hadoop,zeppelin
启用kerberos
Hive on Zeppelin,hive,hadoop,zeppelin
Interpreter 是Zeppelin里最重要的概念,每一种Interpreter对应一个引擎。Hive对应的Interpreter是Jdbc Interpreter, 因为Zeppelin是通过Hive的Jdbc接口来运行Hive SQL。
接下来你可以在Zeppelin的Interpreter页面配置Jdbc Interpreter来启用Hive。首先我想说明的是Zeppelin的Jdbc Interpreter可以支持所有Jdbc协议的数据库,Zeppelin 的Jdbc Interpreter默认是连接Postgresql。
启动Hive,可以有2种选择

  1. 修改默认jdbc interpreter的配置项(这种配置下,在Note里用hive可以直接 %jdbc 开头)
  2. 创建一个新的Jdbc interpreter,命名为hive (这种配置下,在Note里用hive可以直接 %hive 开头)
    这里我会选用第2种方法。我会创建一个新的hive interpreter,然后配置以下基本的属性(你需要根据自己的环境做配置)

Hive on Zeppelin,hive,hadoop,zeppelin
hive.driver 配置成 org.apache.hive.jdbc.HiveDriver, 因为Zeppelin没有把Hive打包进去,所以默认情况下找不到这个Class的,你需要在这个Interpreter中添加dependency,如下图所示:

Hive on Zeppelin,hive,hadoop,zeppelin
hive.url的默认配置形式是 jdbc:hive2://host:port/<db_name>, 这里的host是你的hiveserver2的机器名,port是 hiveserver2的thrift 端口 (如果你的hiveserver2用的是binary模式,那么对应的hive配置是hive.server2.thrift.port (默认是10000),如果是http模式,那么对应的hive配置是hive.server2.thrift.http.port,(默认是10001) 。db_name是你要连的hive 数据库的名字,默认是default

Hive on Zeppelin,hive,hadoop,zeppelin

高级功能
看到这边,你可能会说Zeppelin不就是连接hive jdbc来运行sql嘛,也没什么特别的啊。稍安勿躁,接下来我们来看看除了以上基本sql的执行功能,Zeppelin的Jdbc Interpreter还能为Hive做什么:
● Dynamic Forms
● 支持一次运行多条SQL语句
● 支持并发运行多条SQL语句
● 展示Hive Job运行过程log
● 关联Job URL
● Rest API 运行 Hive SQL
Dynamic Forms

Dynamic Forms 是Zeppelin的一个高级功能,允许用户在代码中插入UI控件来允许用户定制化你的代码。Jdbc Interpreter支持这一功能,用户可以定制SQL,下面是一个下拉框的例子。

Hive on Zeppelin,hive,hadoop,zeppelin
Zeppelin也支持文本框,Checkbox,具体可以参考 http://zeppelin.apache.org/docs/0.8.0/usage/dynamic_form/intro.html
支持一次运行多条SQL语句

默认情况下,Zeppelin支持在一个Paragraph中按顺序运行多条SQL语句。每条SQL语句以分号隔开,如下图

Hive on Zeppelin,hive,hadoop,zeppelin
支持并发运行多条SQL语句

默认情况下,Jdbc Interpreter能够允许同时运行多条SQL语句(运行多个Hive Job),你可以修改以下配置来调整。

Hive on Zeppelin,hive,hadoop,zeppelin
展示Hive Job运行过程log

在最新版本的Zeppelin中可以展示Hive Job的运行过程log,和你在beeline里看到的一样。如下图所示:
Hive on Zeppelin,hive,hadoop,zeppelin
如果你不想看到log,那么有2种方式
● 设置hive interpreter的属性 hive.log.display 为false,这样所有的paragraph都不会展示log
● 设置paragraph的local property:displayLog=false来控制每个paragraph的log输出,如下图:

Hive on Zeppelin,hive,hadoop,zeppelin
关联Job URL

如果你是用MR引擎,那么Zeppelin还帮你自动关联到对应MR Job URL。
Hive on Zeppelin,hive,hadoop,zeppelin文章来源地址https://www.toymoban.com/news/detail-517974.html

到了这里,关于Hive on Zeppelin的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Hadoop-HA-Hive-on-Spark 4台虚拟机安装配置文件

    apache-hive-3.1.3-bin.tar spark-3.0.0-bin-hadoop3.2.tgz hadoop-3.1.3.tar.gz 在hdfs上新建 spark-history(设置权限777),spark-jars文件夹 上传jar到hdfs 链接hadoop中的文件 ln -s 源文件名 新文件名 链接hive中的文件 ln -s 源文件名 新文件名 链接hadoop中的文件 ln -s 源文件名 新文件名

    2024年02月07日
    浏览(43)
  • 一百一十六、Zeppelin——Zeppelin0.9.0连接ClickHouse21.9.5.16(亲测有效,附步骤截图)

    http://t.csdn.cn/DGHIb http://t.csdn.cn/DGHIb [root@hurys22 bin]# ./zeppelin-daemon.sh start Zeppelin start                                             [  OK  ] [root@hurys22 bin]#  [root@hurys22 bin]# jps 18017 NodeManager 17572 SecondaryNameNode 17136 NameNode 17297 DataNode 17849 ResourceManager 26239 ZeppelinServer  在default u

    2024年02月05日
    浏览(51)
  • Apache Zeppelin学习记录2

    上一章讲了如何使用zeppelin来接入python,本节我们来看看如何使用RESTful API操作zeppelin的paragraph。 提示:官方API文档见 https://zeppelin.apache.org/docs/0.10.1/usage/rest_api/notebook.html anonymous模式不需要用户名密码即可直接访问。如图, 根据API文档我们知道,运行模式有两种,同步和异步

    2024年01月17日
    浏览(35)
  • ZEPPELIN部署接入华为云MRS

    在网址https://zeppelin.apache.org/download.html下载安装包, 解压后,设置安装新的安装目录/opt/zeppelin 配置zeppelin环境变量,在profile文件中加入环境变量

    2024年02月09日
    浏览(37)
  • Apache Zeppelin结合Apache Airflow使用1

    之前学了Zeppelin的使用,今天开始结合Airflow串任务。 Apache Airflow和Apache Zeppelin是两个不同的工具,各自用于不同的目的。Airflow用于编排和调度工作流,而Zeppelin是一个交互式数据分析和可视化的笔记本工具。虽然它们有不同的主要用途,但可以结合使用以满足一些复杂的数据

    2024年01月23日
    浏览(37)
  • 了解hive on spark和spark on hive

            大数据刚出来的时候,并不是很完善。发展的不是很快,尤其是在计算服务上,当时使用的是第一代mr计算引擎,相对来说计算并不是那么快。让大数据快速发展的是2009年伯克利大学诞生的spark,并在2013年成为Aparch的顶级开源项目。使大数据发展比较迅速、但是随着

    2024年02月14日
    浏览(67)
  • Iceberg从入门到精通系列之五:Zeppelin集成iceberg,创建iceberg普通表和分区表,并插入数据

    Zeppelin支持Flink SQL Flink SQL支持iceberg Zeppelin集成Flink SQL后,就可以在Zeppelin上创建iceberg表了 下面演示下Zeppelin集成iceberg后,创建表,插入数据的方便性。

    2024年02月11日
    浏览(48)
  • 【大数据技术】Hive on spark 与Spark on hive 的区别与联系

    【大数据技术】Hive on spark 与Spark on hive 的区别与联系 Hive on Spark Hive 既作为存储元数据又负责sql的解析优化,遵守HQL语法,执行引擎变成了spark,底层由spark负责RDD操作 Spark on Hive Hive只作为存储元数据,Spark负责sql的解析优化,遵守spark sql 语法,底层由spark负责RDD操作

    2024年02月15日
    浏览(64)
  • SparkSQL与Hive整合(Spark On Hive)

    hive metastore元数据服务用来存储元数据,所谓元数据,即hive中库、表、字段、字段所属表、表所属库、表的数据所在目录及数据分区信息。元数据默认存储在hive自带的Derby数据库。在内嵌模式和本地模式下,metastore嵌入在主hive server进程中。但在远程模式下,metastore 和 hive

    2024年02月12日
    浏览(77)
  • hive实战使用文档(一)之hive on hbase知多少

    查看数据库 : 切换数据库: 查看所有的表: 查询表结构: 创建数据库: 删除数据库 创建表 删除表 创建视图 创建外部表 建表语句标准化 查看 show create table student 方式一:hive内部映射hbase 建表方式两种(已测): 1、创建内部表 创建时,指定hbase表名不能在hbase中提前创建,或已

    2024年02月11日
    浏览(30)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包