【Hadoop-OBS-Hive】利用华为云存储对象 OBS 作为两个集群的中间栈 load 文件到 Hive

这篇具有很好参考价值的文章主要介绍了【Hadoop-OBS-Hive】利用华为云存储对象 OBS 作为两个集群的中间栈 load 文件到 Hive。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本次需求:想将一个集群上的 csv 文件 load 到另一个集群的 Hive 表中,由于两个集群的网络不通,所以利用华为云存储对象 OBS 作为中间栈,从而实现。

1)压缩文件

服务器A上 /home/test/ 目录下找到测试文件进行压缩,实际生产中不排除单个文件很大,导致上传至存储对象速度慢,所以压缩后效率更高。

zip -r /home/test/20231127/test_20231127.zip test_20231127.csv

2)上传文件到 OBS 存储对象

上传压缩文件到 obs,这里我们已经安装了obsutil-Liunx工具,如果没有安装的话要安装。

安装地址:https://support.huaweicloud.com/utiltg-obs/obs_11_0003.html

/opt/obsutil/obsutil cp /home/test/20231127/test_20231127.zip obs://obs-tes/model_test/

3)crontab 定时压缩上传

实际生产中可以定时进行压缩上传。

4)从 obs 上拉取下来文件后解压缩

obs://obs-test/model_test/test_20231127.zip cp /data/test/
unzip -d /data/test/ /data/test/test_20231127.zip

5)判断对应文件是否存在

拉下来后最好在脚本中自动进行判断文件是否存在,如果有异常的情况可以帮助我们尽快发现异常。

if [ -f /data/cdp/test_20231127.csv ]; then
    echo "该文件存在"
else
    echo "该文件不存在"
fi

6)上传至 HDFS 并 load 到 Hive

完整脚本如下:文章来源地址https://www.toymoban.com/news/detail-784324.html

/opt/obsutil/obsutil config -i=****************** -k=**************************** -e=huaweiyun.cloud.com
echo 123 | kinit hive
sh /opt/obsutil/config.sh
/opt/obsutil/obsutil cp obs://obs-test/model_test/test_20231127.zip /data/test/test_20231127.zip
if [ -e /data/test/test_20231127.zip ]; then
    echo "文件下载完成"
    unzip -o -d /data/test/ /data/test/test_20231127.zip
    echo "解压缩完成"
    hdfs dfs -put -f /data/test/test_20231127.csv /tmp/test
    echo "上传hdfs完成"
	hive -e "load data inpath '/tmp/test/test_20231127.csv' overwrite into table test.test_table"
    echo "load完成"
else
    echo "该文件不存在"
    break
fi

到了这里,关于【Hadoop-OBS-Hive】利用华为云存储对象 OBS 作为两个集群的中间栈 load 文件到 Hive的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Hadoop 集群中使用 S3(对象存储)文件系统

    Hadoop 自带 S3 依赖,位置如下: 但是这些依赖包默认不在 hadoop classpath 下面。可以使用以下两种方法引入这两个包: 修改hadoop的core-site.xml文件: s3的配置模板(记得修改成自己的 secret key 与 access key ) 更改完毕并重启集群后 测试hdfs dfs -ls s3a://hive0614/ 等命令操作 S3 中的文件

    2024年02月06日
    浏览(44)
  • 利用Hadoop处理离线数据:Hive和Spark离线数据处理实现

    作者:禅与计算机程序设计艺术 引言 随着大数据时代的到来,越来越多的数据产生于各种业务系统。这些数据往往需要在离线环境中进行处理,以降低数据处理的时间和成本。Hadoop作为目前最为流行的分布式计算框架,提供了强大的离线数据处理能力。Hive和Spark作为Hadoop生

    2024年02月11日
    浏览(44)
  • 利用HTML5存储对象:localStorage和sessionStorage解析

    前端朋友们,你是否曾为如何在用户的浏览器中存储数据而感到困扰?你是否想过,如果可以在用户的浏览器中存储一些数据,那么我们的应用程序将会变得多么强大?如果你的答案是肯定的,那么本文将为你解锁一种新的能力——使用HTML5的localStorage和sessionStorage。 HTML5引入

    2024年02月05日
    浏览(37)
  • 华为云OBS权限控制

    OBS权限控制理论上来讲有3种,IAM权限、桶策略、桶/对象ACLs 参考:https://support.huaweicloud.com/perms-cfg-obs/obs_40_0001.html 桶策略是针对某个桶配置的,因此更聚焦于“此桶”的个性化操作权限。桶策略里可以配置桶动作和对象动作。 桶ACLs/对象ACLs是将常用的桶策略进行了一定的聚

    2024年02月13日
    浏览(34)
  • OBS 迁移--华为云

    一、创建迁移i任务 1. 登录管理控制台。 2. 单击管理控制台左上角的  在下拉框中选择区域。 3. 单击“ 服务列表 ”,选择“ 迁移 对象存储迁移服务 OMS ”,进入“ 对象存储迁移服务 ”页面。 4. 单击页面右上角“ 创建迁移任务 ”。 5. 仔细阅读弹出的服务声明,勾选“ 同

    2024年02月15日
    浏览(56)
  • 利用OBS和手机摄像头录课(录屏/录像)时的方法与参数设置

    目录 1. OBS下载地址 2. OBS录屏设置 2.1 使用向导设置做全局设置 2.2 详细设置 2.2.1 视频设置 2.2.2 音频设置 2.2.3 输出设置 2.2.4 快捷键设置 3. 麦克风降噪设置 4. 使用OBS录屏功能 5. 用手机作为网络摄像头采集图像 5.1 配置手机摄像头 5.2 为OBS中设置手机IP摄像头 6. 本文的OBS参数设

    2024年02月11日
    浏览(45)
  • vue+el-upload(封装华为云OBS上传文件)前端直传

    注释:代码中###是需要填写自己东西的 以上代码为封装的组件代码,需要引入父组件后调用配置 下面图为组件调用,注册跟引入就不用我多说了吧,不会的自行百度 注:华为云前端直接上传的话会出现跨域报错,把华为云OBS CORS跨域规则设置一下 我设置的规则全部打开了

    2024年02月05日
    浏览(77)
  • 使用rclone工具实现华为云OBS至AWS S3数据迁移同步

            项目需要将华为云的OBS对象存储服务的存储桶bucket的内容迁移复制到AWS云的S3存储桶中,AWS中暂无实现改需求的云服务,所以采用开源的第三方软件rclone来实现。         rclone可以使用在linux操作系统中,是一种命令行形式的工具。 华为云OBS: 1. 已从统一身份认

    2024年02月02日
    浏览(91)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包