使用Spark SQL读取阿里云OSS的数据

10月前作者：yangxudong 分类：Toy博客阅读(53) 违法举报

这篇具有很好参考价值的文章主要介绍了使用Spark SQL读取阿里云OSS的数据。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

读OSS数据

创建一个table，并关联OSS目录路径

CREATE TABLE my_table
USING parquet
OPTIONS (
  path 'oss://my_bucket/my_data_dir/dt=20230904',  -- 关联OSS路径
  header 'true', -- 如果Parquet文件包含列名的头部信息，则设置为'true'，否则设置为'false'
  inferSchema 'true' -- 自动推断Parquet文件的模式
);

如果数据文件是Parquet格式的，可以自动推断出表的schema，很方便。

这样就可以使用sql语句读取数据了。

DESC my_table;
SELECT * FROM my_table limit 50;

写OSS数据

首先创建一个关联OSS目录的database:

--drop database if exists keepdb CASCADE;  -- 注意这个drop操作会删除OSS上对应目录下的数据，谨慎！！！

create database if not exists my_db location 'oss://my_bucket.oss-cn-beijing-internal.aliyuncs.com/my-data-dir';

现在就可以通过sql写入数据到OSS了，如下：文章来源地址https://www.toymoban.com/news/detail-782633.html

use my_db;

create table my_oss_table like my_table;

insert overwrite table my_oss_table
select * from my_table;

到了这里，关于使用Spark SQL读取阿里云OSS的数据的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

阿里云OSS图床和百度OCR获取ak, sk

阿里云OSS和百度OCR每月都有免费的额度的, 除非使用频率极高或者密钥泄露, 正常情况下够用了, 超出后要扣费的, 所以不建议把自己的密钥发给他人使用为啥要使用自己的账户来上传图片呢? 别人的图床说不定哪天就挂了, 当然还有很多其他的方式, 看个人习惯吧使用阿里云

2024年02月01日
浏览(52)
阿里云OSS使用

阿里云OSS购买之后项目加入依赖将@ConfigurationProperties将配置信息，封装在application.yml中 application.yml中的配置，具体参数，参考直接的OSS配置信息建立实体类进行封装application.yml中的信息 AliyunProperties 实体类方便拿取，这样就避免手动书写文件夹时候产生错误，由下

2024年02月02日
浏览(38)
PHP-阿里云oss使用

为什么要使用第三方存储？ 1）静态文件会占用大量带宽； 2）加载速度 3）存储空间第三方存储有哪些？ 1）阿里云oss 2）七牛云 3）又拍云等等阿里云OSS的介绍https://www.aliyun.com/product/oss/ 阿里云oss的使用阿里云oss使用步骤： 1.申请key和secret(把key和secret保存好,项目中配置使

2024年02月11日
浏览(43)
项目使用阿里云OSS存储

步骤1,2,3,4都是开通阿里云oss 阿里云开通对象存储OSS服务搞一个access-key 搞一个子用户创建个用户, 并且给权限! 创建AccessKey同时记录下来, 关闭就没了项目中引入依赖在配置中配置方法中就可以用了就ok了

2024年02月03日
浏览(43)
阿里云对象存储OSS使用

对象存储服务（Object Storage Service，简称 OSS）为您提供基于网络的数据存取服务。使用 OSS，您可以通过网络随时存储和调用包括文本、图片、音频和视频等在内的各种非结构化数据文件。对象存储可以简单理解为用来存储图片、音频、视频等非结构化数据的数据池。相对于主

2024年02月11日
浏览(63)
阿里云OSS服务使用操作流程

阿里云对象存储OSS（Object Storage Service）是一款海量、安全、低成本、高可靠的云存储服务，可提供99.9999999999%（12个9）的数据持久性，99.995%的数据可用性。多种存储类型供选择，全面优化存储成本。 OSS具有与平台无关的RESTful API接口，您可以在任何应用、任何时间、任何地点

2023年04月09日
浏览(43)
阿里云oss对象存储的使用

1.介绍对象存储服务（Object Storage Service，OSS）是一种海量、安全、低成本、高可靠的云存储服务，适合存放任意类型的文件。容量和处理能力弹性扩展，多种存储类型供选择，全面优化存储成本。 2.使用步骤 1）登录阿里云：https://www.aliyun.com 2）开通阿里云对象存储服

2024年01月17日
浏览(56)
如何使用阿里云OSS进行前端直传

在使用阿里云OSS进行前端直传时，首先我们需要去阿里云官网注册自己的存储桶，然后申请相关的accessKeyId和accessKeySecret，然后新建一个桶，为这个桶命名以及选择对应的地区。然后可以根据自己的业务，封装对应的组件，以下是根据我自己的项目，所封装的上传组件，所用

2024年02月21日
浏览(44)
云服务——阿里云OSS的入门使用

紧接着上一集里面说到的，网络资源大多都不会直接放在服务器端，而是放在别的专门的云存储平台里面。比如短信服务如果自己实现会非常繁琐，需要和各个运营商对接，使用阿里云提供的短信服务后只需要调用短信服务即可存储网络资源需要用到对象存储:概念如下

2024年02月09日
浏览(39)
阿里云的OSS云存储的使用

阿里云官网：https://www.aliyun.com/ 通过阿里云官网，登录进入用户的界面，在搜索框中输入OSS，然后进入阿里云的对象存储OSS的控制台。（未开通的开通即可）点击【Bucket 列表】，查看个人的Bucket。点击【创建 Bucket】，创建新的 Bucket。其中必填项有： Bucket 名称：唯一的就行

2024年02月09日
浏览(42)