使用hive查看orc文件 orcfiledump命令详解 异常处理(Failed to read ORC file)

这篇具有很好参考价值的文章主要介绍了使用hive查看orc文件 orcfiledump命令详解 异常处理(Failed to read ORC file)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

列式存储以orc和parquet文件居多,现阶段hive数据存储的主流格式是orc,然后结合presto(目前对orc的支持好于parquet)做一些即席查询。hive数据文件是直接存储在hdfs上,但是hadoop貌似没有提供直接查看文本的命令,好在hive提供了支持。


一、ORC文件查看

1. 命令帮助: hive --service orcfiledump --help

$ hive --service orcfiledump --help
usage ./hive orcfiledump [-h] [-j] [-p] [-t] [-d] [-r <col_ids>] [--recover] [--skip-dump] [--backup-path <new-path>] <path_to_orc_file_or_directory>

  --json (-j)                 Print metadata in JSON format
  --pretty (-p)               Pretty print json metadata output
  --timezone (-t)             Print writer's time zone
  --data (-d)                 Should the data be printed
  --rowindex (-r) <col_ids> Comma separated list of column ids for which row index should be printed
  --recover                   Recover corrupted orc files generated by streaming
  --skip-dump                 Used along with --recover to directly recover files without dumping
  --backup-path <new_path>  Specify a backup path to store the corrupted files (default: /tmp)
  --help (-h)                 Print help message
# (-[a-z])里的内容为缩写,与前面的--xx等价,使用起来更加方便
# --json --pretty都用于metadata信息的展示,后者对输出的json进行了格式化
# --data 可用于数据预览

2. 数据预览演示

hive --service orcfiledump -d /warehouse/tablespace/managed/hive/ads.db/xxx/dw=2021-07-05 | tail

查看orc文件,hive,hadoop,小技巧,hive,大数据,hadoop
① 建议挑选较小的文件进行测试
②文件实在很大建议使用tail,使用head在输出指定的行数后会报一堆的异常信息
查看orc文件,hive,hadoop,小技巧,hive,大数据,hadoop

二、ORC文件修复

今天使用presto查hive数据的时候报了如下异常
Query 20230313_083619_19104_9jvmr failed: Failed to read ORC file: hdfs://DATALAKE/warehouse/tablespace/managed/hive/dim.db/xxx/dw=2023-03-06/000065_0

但是从hdfs上看文件是存在的,也有大小,然后尝试了下修复命令

hive --service orcfiledump  --recover /warehouse/tablespace/managed/hive/dim.db/xxx/dw=2023-03-06/000065_0

修复成功
查看orc文件,hive,hadoop,小技巧,hive,大数据,hadoop

(建议先备份文件)
暂未发现异常,大家如有遇到orc fail这种情况可以尝试下文章来源地址https://www.toymoban.com/news/detail-567007.html

到了这里,关于使用hive查看orc文件 orcfiledump命令详解 异常处理(Failed to read ORC file)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 安卓adb命令查看系统文件大小及磁盘使用情况

    现象 今天测试端提出一个问题,桌面无法进入,点HOME键做什么都没用,就是不能进去桌面,但是其他功能比如语音之类的可用。 分析 分析日志发现如下报错: 提示设备存储空间已满,应用在写入日志和做一些文件存储相关的操作异常,导致桌面无法进入。 处理 需要先排查

    2024年02月05日
    浏览(73)
  • 在windows系统环境下使用 tail 命令实时查看文件

    文章目录 前言 一、使用tail for Windows工具 二、使用Git Bash Linux系统下我们可以使用tail -f 命令实时查看文件,下面提供两种在windows系统环境下使用tail 命令的方法 。 tail for Windows 是便携式软件不需要安装,它可用于显示文件的最后一行并跟踪/监视文件的更改。 下载地址: 点

    2024年02月16日
    浏览(55)
  • 在Hive/Spark上运行执行TPC-DS基准测试 (ORC和TEXT格式)

    《大数据平台架构与原型实现:数据中台建设实战》一书由博主历时三年精心创作,现已通过知名IT图书品牌电子工业出版社博文视点出版发行,点击《重磅推荐:建大数据平台太难了!给我发个工程原型吧!》了解图书详情,京东购书链接:https://item.jd.com/12677623.html,扫描

    2024年02月12日
    浏览(55)
  • 如何查看声卡、pcm设备以及tinyplay、tinymix、tinycap的使用 Android tinyAlsa命令详解:

    1、查看当前的声卡: cat /proc/asound/cards 2、查看pcm设备列表: cat /proc/asound/pcm 3、查看当前有哪些进程占用了pcm设备节点 lsof |grep pcm     4、查看有哪些音频设备节点 ls /dev/snd/ 音频设备的命名规则为 [device type] C [card index] D [device index][capture/playback] ,即名字中含有4部分的信息

    2024年02月02日
    浏览(50)
  • 1、通过亿级数据量在hive和impala中查询比较text、orc和parquet性能表现(二)

    本文通过在hdfs中三种不同数据格式文件存储相同数量的数据,通过hive和impala两种客户端查询进行比较。 本文前提:熟悉hadoop、hive和impala、kafka、flink等,并且其环境都可正常使用。(在后续的专栏中都会将对应的内容补全,目前已经完成了zookeeper和hadoop的部分。) 本文分为

    2024年02月12日
    浏览(51)
  • Hive SchemaTool 命令详解

    Hive schematool 是 hive 自带的管理 schema 的相关工具。 直接输入 schematool 或者 schematool -help 输出结果如下: -dbType 数据库类型,只支持以下几种。 如列出当前 schema 的信息 结果如下: -driver 连接后台数据库的驱动类名称。 -dryRun 仅仅列出要执行的SQL,不执行。 -passWord 覆盖 hive

    2024年04月12日
    浏览(22)
  • 查看磁盘信息命令和查看目录以及文件占用空间大小命令

    记录 :313 场景 :在CentOS 7.9操作系统,查看磁盘信息命令、查看目录以及文件占用空间大小命令。主要是df、du、lsblk、fdisk、parted、pvdisplay、vgdisplay、lvdisplay、free等命令。 版本: 操作系统:CentOS 7.9 1.df命令 查看文件系统占用磁盘空间大小。df,disk free简称。 (1)查看帮助 命

    2024年02月07日
    浏览(53)
  • Linux 系统 history(查看执行命令历史) 命令详解

    history 命令是Linux/Unix系统中的一个常用命令,用于查看当前用户在命令行中执行过的命令历史记录。该命令允许用户查看、搜索、编辑和执行之前执行过的命令,为用户提供了方便、快捷的操作方式。本文将全面详细地讲解 history 命令的各种用法和注意事项,并提供一些实用

    2024年02月16日
    浏览(86)
  • 三、Docker:Compose安装、使用、文件结构、配置参数与命令详解

    注意:后续技术分享,第一时间更新,以及更多更及时的技术资讯和学习技术资料 ,将在公众号 CTO Plus 发布,请关注公众号: CTO Plus     Docker-compose 是用于定义和运行多容器 Docker 应用程序的编排工具。使用 docker-compose 后不再需要逐一创建和启动容器。可以使用YML文件来配

    2024年02月10日
    浏览(46)
  • Linux 文件查看命令

    一、cat命令 1. cat+文件名 ,查看文件内容: 例如,查看main.c文件的内容: 2. cat 文件名 ,往文件中写入数据, Ctrl+d是结束输入 例如,向文件a.txt中写入数据: 查看刚刚写入a.txt的内容: 3. cat 文件名1 文件名2 新文件名 ,合并文件,将文件1和文件2 的内容合并放到新文件中

    2024年02月13日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包