使用Spark SQL读取阿里云OSS的数据

这篇具有很好参考价值的文章主要介绍了使用Spark SQL读取阿里云OSS的数据。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

读OSS数据

创建一个table,并关联OSS目录路径

CREATE TABLE my_table
USING parquet
OPTIONS (
  path 'oss://my_bucket/my_data_dir/dt=20230904',  -- 关联OSS路径
  header 'true', -- 如果Parquet文件包含列名的头部信息,则设置为'true',否则设置为'false'
  inferSchema 'true' -- 自动推断Parquet文件的模式
);

如果数据文件是Parquet格式的,可以自动推断出表的schema,很方便。

这样就可以使用sql语句读取数据了。

DESC my_table;
SELECT * FROM my_table limit 50;

写OSS数据

首先创建一个关联OSS目录的database:

--drop database if exists keepdb CASCADE;  -- 注意这个drop操作会删除OSS上对应目录下的数据,谨慎!!!

create database if not exists my_db location 'oss://my_bucket.oss-cn-beijing-internal.aliyuncs.com/my-data-dir';

现在就可以通过sql写入数据到OSS了,如下:文章来源地址https://www.toymoban.com/news/detail-782633.html

use my_db;

create table my_oss_table like my_table;

insert overwrite table my_oss_table
select * from my_table;

到了这里,关于使用Spark SQL读取阿里云OSS的数据的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 阿里云OSS图床和百度OCR获取ak, sk

    阿里云OSS和百度OCR每月都有免费的额度的, 除非使用频率极高或者密钥泄露, 正常情况下够用了, 超出后要扣费的, 所以不建议把自己的密钥发给他人使用 为啥要使用自己的账户来上传图片呢? 别人的图床说不定哪天就挂了, 当然还有很多其他的方式, 看个人习惯吧 使用阿里云

    2024年02月01日
    浏览(52)
  • 阿里云OSS使用

    阿里云OSS购买之后 项目加入依赖 将@ConfigurationProperties将配置信息,封装在application.yml中   application.yml中的配置,具体参数,参考直接的OSS配置信息   建立实体类进行封装application.yml中的信息  AliyunProperties 实体类 方便拿取,这样就避免手动书写文件夹时候产生错误, 由下

    2024年02月02日
    浏览(38)
  • PHP-阿里云oss使用

    为什么要使用第三方存储? 1)静态文件会占用大量带宽; 2)加载速度 3)存储空间 第三方存储有哪些? 1)阿里云oss 2)七牛云 3)又拍云 等等 阿里云OSS的介绍https://www.aliyun.com/product/oss/ 阿里云oss的使用 阿里云oss使用步骤: 1.申请key和secret(把key和secret保存好,项目中配置使

    2024年02月11日
    浏览(43)
  • 项目使用阿里云OSS存储

    步骤1,2,3,4都是开通阿里云oss 阿里云开通对象存储OSS服务 搞一个access-key 搞一个子用户 创建个用户, 并且 给权限! 创建AccessKey同时记录下来, 关闭就没了 项目中引入依赖 在配置中配置 方法中就可以用了 就ok了

    2024年02月03日
    浏览(43)
  • 阿里云对象存储OSS使用

    对象存储服务(Object Storage Service,简称 OSS)为您提供基于网络的数据存取服务。使用 OSS,您可以通过网络随时存储和调用包括文本、图片、音频和视频等在内的各种非结构化数据文件。 对象存储可以简单理解为用来存储图片、音频、视频等非结构化数据的数据池。相对于主

    2024年02月11日
    浏览(63)
  • 阿里云OSS服务使用操作流程

    阿里云对象存储OSS(Object Storage Service)是一款海量、安全、低成本、高可靠的云存储服务,可提供99.9999999999%(12个9)的数据持久性,99.995%的数据可用性。多种存储类型供选择,全面优化存储成本。 OSS具有与平台无关的RESTful API接口,您可以在任何应用、任何时间、任何地点

    2023年04月09日
    浏览(43)
  • 阿里云oss对象存储的使用

    1.介绍 对象存储服务(Object Storage Service,OSS)是一种海量、安全、低成本、高可靠的云存储 服务,适合存放任意类型的文件。容量和处理能力弹性扩展,多种存储类型供选择,全面优 化存储成本。 2.使用步骤   1)登录阿里云:https://www.aliyun.com   2)开通阿里云对象存储服

    2024年01月17日
    浏览(56)
  • 如何使用阿里云OSS进行前端直传

    在使用阿里云OSS进行前端直传时,首先我们需要去阿里云官网注册自己的存储桶,然后申请相关的accessKeyId和accessKeySecret,然后新建一个桶,为这个桶命名以及选择对应的地区。 然后可以根据自己的业务,封装对应的组件,以下是根据我自己的项目,所封装的上传组件,所用

    2024年02月21日
    浏览(44)
  • 云服务——阿里云OSS的入门使用

    紧接着上一集里面说到的,网络资源大多都不会直接放在服务器端,而是放在别的专门的云存储平台里面。 比如短信服务如果自己实现会非常繁琐,需要和各个运营商对接,使用阿里云提供的短信服务后只需要调用短信服务即可  存储网络资源需要用到对象存储:概念如下  

    2024年02月09日
    浏览(39)
  • 阿里云的OSS云存储的使用

    阿里云官网:https://www.aliyun.com/ 通过阿里云官网,登录进入用户的界面,在搜索框中输入OSS,然后进入阿里云的对象存储OSS的控制台。(未开通的开通即可) 点击【Bucket 列表】,查看个人的Bucket。点击【创建 Bucket】,创建新的 Bucket。其中必填项有: Bucket 名称:唯一的就行

    2024年02月09日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包