Apache Zeppelin学习记录2

这篇具有很好参考价值的文章主要介绍了Apache Zeppelin学习记录2。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Apache Zeppelin学习记录2


前言

上一章讲了如何使用zeppelin来接入python,本节我们来看看如何使用RESTful API操作zeppelin的paragraph。


提示:官方API文档见https://zeppelin.apache.org/docs/0.10.1/usage/rest_api/notebook.html

一、基础调用

  1. anonymous模式不需要用户名密码即可直接访问。如图,
    Apache Zeppelin学习记录2,大数据,python,zeppelin
    根据API文档我们知道,运行模式有两种,同步和异步,区别在于url不同,
    同步是run:http://[zeppelin-server]:[zeppelin-port]/api/notebook/run/[noteId]/[paragraphId]
    异步是job:http://[zeppelin-server]:[zeppelin-port]/api/notebook/job/[noteId]/[paragraphId]

  2. shiro模式,需要先调用/api/login,然后再调用相应的接口,如图,
    Apache Zeppelin学习记录2,大数据,python,zeppelin

二、带参数调用

1.代码块要增加一行z.textbox(“folder_path”, “input”)

具体API说明参考:
https://zeppelin.apache.org/docs/0.10.1/usage/rest_api/notebook.html#run-a-paragraph-synchronously
https://zeppelin.apache.org/docs/0.10.1/usage/dynamic_form/intro.html#text-input-form-1
代码如下(示例):

%python

import pandas as pd
import os

# 文件夹路径
folder_path = z.textbox("folder_path", "input")

# 读取文件夹中的所有 CSV 文件
csv_files = [f for f in os.listdir(folder_path) if f.endswith('.csv')]

。。。

请求发送时如下,增加body
Apache Zeppelin学习记录2,大数据,python,zeppelin

2.读取result

在 Apache Zeppelin 中,同步方式请求执行paragraph的返回值会把paragraph的输出放在msg.data里,如下截图,需要根据msg.type对data进行进一步分析处理。
Apache Zeppelin学习记录2,大数据,python,zeppelin

Apache Zeppelin学习记录2,大数据,python,zeppelin
异步方式没有直接提供获取某个段落(paragraph)执行结果的特定 API ,如果想要获取段落执行结果,可以考虑以下4种方法:

  1. 通过 Zeppelin Web 页面手动导出结果: 在 Zeppelin 的 Web 界面中,执行你感兴趣的段落,然后手动导出结果。通常,你可以在段落执行后找到一个导出按钮或选项,以将执行结果保存为文件(如 JSON、CSV 等)。这样,你可以手动导出并保存结果数据。

  2. 直接查询 Zeppelin 的数据库: Zeppelin 通常使用数据库(如 Derby)来存储笔记本(notebook)和段落的元数据。你可以直接查询 Zeppelin 的数据库,获取相关段落的执行结果。请注意,直接查询数据库需要对 Zeppelin 的数据库结构有一定的了解,并且这种方法可能涉及到一些安全性和稳定性的考虑。

  3. 将paragraph的输出写入某个特定的文件或数据库中,然后用第三方API去读取这个结果。

  4. 通过notebook获取paragraph的执行结果,执行GET /api/notebook/[notebook id],在得到的response里解析paragraphs的results。


总结

以上就是今天要讲的内容,后面我们可以对zeppelin进行更深入的使用。文章来源地址https://www.toymoban.com/news/detail-797748.html

到了这里,关于Apache Zeppelin学习记录2的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • zeppelin的hive使用

    配置项 Hive使用:点击create new note Default Interpreter选择hive

    2024年02月16日
    浏览(25)
  • ZEPPELIN部署接入华为云MRS

    在网址https://zeppelin.apache.org/download.html下载安装包, 解压后,设置安装新的安装目录/opt/zeppelin 配置zeppelin环境变量,在profile文件中加入环境变量

    2024年02月09日
    浏览(30)
  • Iceberg从入门到精通系列之五:Zeppelin集成iceberg,创建iceberg普通表和分区表,并插入数据

    Zeppelin支持Flink SQL Flink SQL支持iceberg Zeppelin集成Flink SQL后,就可以在Zeppelin上创建iceberg表了 下面演示下Zeppelin集成iceberg后,创建表,插入数据的方便性。

    2024年02月11日
    浏览(36)
  • Zeppelin0.9.0 连接 Hive 3.1.2(踩坑,亲测有效)

    一、前提 已经安装好Hadoop、Hive(可以启动hiveserver2)、Zeppelin 1.启动Hadoop [root@hurys24 ~]# start-all.sh 2.启动hiveserver2 [root@hurys24 ~]# cd /opt/soft/hive312/conf/ [root@hurys24 conf]# nohup ../bin/hive --service hiveserver2 [1] 27593 [root@hurys24 conf]# nohup: ignoring input and appending output to ‘nohup.out’ [root@hurys24

    2023年04月14日
    浏览(20)
  • zeppelin在使用hive的时候报错: Cannot modify tez.application.tags at runtime

    Could not open client transport with JDBC Uri: jdbc:hive2://ucd-prod-vdp-usdp-103.viatris.cc:10000/default;principal=hadoop/ucd-prod-vdp-usdp-103.viatris.cc@UCDIPA.VIATRIS.CC;hive.server2.proxy.user=zhangliang;?tez.application.tags=paragraph_1692003609572_1614159237;mapreduce.job.tags=paragraph_1692003609572_1614159237;: Failed to open new session: java.lang

    2024年02月12日
    浏览(33)
  • 【实操记录】Oracle数据整库同步至Apache Doris

    本文是Oracle数据整库同步至Apache Doris实操记录,仅供参考 参考:https://cn.selectdb.com/blog/104 1、Oracle 配置 2、Oracle 数据 3、启动Doris 4、启动Flink 下载相关jar,复制到flink的lib目录 启动flink集群 5、测试同步操作 异常:Unknown operation oracle-sync-database 处理办法: 需要使用最新的 fl

    2024年02月07日
    浏览(31)
  • 【学习记录】服务器上用Python代码下载ERA5 Hourly 数据

    需要下载至少20年的多个变量不同pressure level的ERA5 hourly数据,其中单一变量31层、4个时刻的数据约为245MB,所有数据下下来约有8T。在对比了网上现有的下载ERA5数据的方法考虑到储存问题,决定借助服务器利用python脚本下载数据,将单个变量的每日的结果存成一个文件。 ERA

    2024年02月02日
    浏览(49)
  • Azure - 机器学习:使用 Apache Spark 进行交互式数据整理

    关注TechLead,分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里云认证的资深架构师,项目管理专业人士,上亿营收AI产品研发负责人。 数据整理已经成为机器学习项目中最重要的步骤之一。

    2024年02月08日
    浏览(32)
  • 数据采集 通过Apache Spark和Amazon SageMaker构建机器学习管道;

    作者:禅与计算机程序设计艺术 随着人们生活水平的提高,收集、整理、分析和处理海量数据已成为当今社会所需的工具。而在云计算时代,数据的价值及其价值的获取越来越重要。近年来,Apache Spark和Amazon SageMaker的结合让数据收集变得更加简单、高效、可靠,基于这些框

    2024年02月04日
    浏览(32)
  • python的日志模块学习记录

    1.导入 2.配置日志配置项(基本配置一般不能满足需要,一般使用字典配置如下) 此基础配置的日志打印格式示例 3.调用配置,是日志配置生效 4.打印日志

    2024年02月06日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包