Hive实战:学生信息排序

这篇具有很好参考价值的文章主要介绍了Hive实战:学生信息排序。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、实战概述

  • 本次实战以Apache Hive数据仓库工具为核心,通过处理存储在HDFS上的学生信息表实现数据排序操作。首先,创建并上传包含8条记录的学生表数据至HDFS的指定目录,每条记录由姓名、性别、年龄、手机和专业五个字段组成。随后,启动Hive Metastore服务与客户端,并基于HDFS上的文本文件建立了一个外部表t_student

  • 在实战任务中,主要运用Hive SQL进行数据查询与排序。首先展示了如何按年龄降序排列学生信息,直观展示了Hive对大规模结构化数据的强大处理能力。此外,还进行了拓展练习,演示了更为复杂的排序需求,即先按性别升序再按年龄降序排序学生信息。

  • 整个实战过程通过实际操作详细解析了从数据准备、到使用Hive进行数据建模、再到执行SQL查询及排序的一系列步骤,旨在帮助学习者深入理解并掌握Hive在大数据处理场景中的应用,特别是在数据查询、分析与排序方面的功能与优势。

二、提出任务

  • 学生表,包含五个字段(姓名、性别、年龄、手机、专业),有8条记录
姓名 性别 年龄 手机 专业
李文丽 19 15892943440 大数据应用
张三丰 20 15890903456 人工智能应用
郑晓琳 18 18867890234 软件技术
唐宇航 22 15856577890 计算机应用
陈燕文 21 13956576783 软件技术
童安格 19 15889667890 大数据应用
肖雨涵 20 15857893452 软件技术
冯晓华 18 18856784560 大数据应用
  • 使用Hive计算框架,学生信息按年龄降序排列结果
    Hive实战:学生信息排序,数仓技术Hive入门,hive,hadoop,数据仓库

三、完成任务

(一)准备数据

1、在虚拟机上创建文本文件

  • 在master虚拟机上创建student.txt文件
    Hive实战:学生信息排序,数仓技术Hive入门,hive,hadoop,数据仓库

2、上传文件到HDFS指定目录

  • 创建/sortstudent/input目录,执行命令:hdfs dfs -mkdir -p /sortstudent/input
    Hive实战:学生信息排序,数仓技术Hive入门,hive,hadoop,数据仓库

  • 将文本文件student.txt上传到HDFS的/sortstudent/input目录
    Hive实战:学生信息排序,数仓技术Hive入门,hive,hadoop,数据仓库

(二)实现步骤

1、启动Hive Metastore服务

  • 执行命令:hive --service metastore &,在后台启动metastore服务
    Hive实战:学生信息排序,数仓技术Hive入门,hive,hadoop,数据仓库

2、启动Hive客户端

  • 执行命令:hive,看到命令提示符hive>
    Hive实战:学生信息排序,数仓技术Hive入门,hive,hadoop,数据仓库

3、基于HDFS数据文件创建Hive外部表

  • 创建外部表t_student,执行命令:

  • create external table t_student ( name string, gender string, age int, phone string, major string ) row format delimited fields terminated by ' ' location '/sortstudent/input';
    Hive实战:学生信息排序,数仓技术Hive入门,hive,hadoop,数据仓库

  • 在MySQL的hive数据库的TBLS表里可以查看外部表t_student对应的记录
    Hive实战:学生信息排序,数仓技术Hive入门,hive,hadoop,数据仓库

  • 查看学生表全部记录,执行语句:select * from t_student;
    Hive实战:学生信息排序,数仓技术Hive入门,hive,hadoop,数据仓库文章来源地址https://www.toymoban.com/news/detail-785483.html

4、利用Hive SQL实现按年龄降序排列

  • 执行语句:select * from t_student order by age desc;
    Hive实战:学生信息排序,数仓技术Hive入门,hive,hadoop,数据仓库

四、拓展练习

任务:学生信息排序,先按性别升序,再按年龄降序

  • 运行结果,如下图所示
    Hive实战:学生信息排序,数仓技术Hive入门,hive,hadoop,数据仓库

到了这里,关于Hive实战:学生信息排序的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • CloudCanal x Hive 构建高效的实时数仓

    CloudCanal 最近对于全周期数据流动进行了初步探索,打通了 Hive 目标端的实时同步,为实时数仓的构建提供了支持,这篇文章简要做下分享。 基于临时表的增量合并方式 基于 HDFS 文件写入方式 临时表统一 Schema 任务级的临时表 Hive 目标端写入方式和 Doris 相似,需要在目标表

    2024年03月09日
    浏览(40)
  • 数仓报表数据导出——Hive数据导出至Clickhouse

    创建database 创建table 使用 spark-sql 查询数据,然后通过 jdbc 写入Clickhouse。 创建Maven项目,pom.xml文件如下 创建HiveToClickhouse类 上传hive.xml,hdfs.xml 以及core-site.xml文件到项目的resource目录下 打包,并上传hive-to-clickhouse-1.0-SNAPSHOT-jar-with-dependencies.jar到hadoop节点 执行如下命令测试 为

    2024年02月16日
    浏览(42)
  • HIve数仓新零售项目ODS层的构建

    注:大家觉得博客好的话,别忘了点赞收藏呀,本人每周都会更新关于人工智能和大数据相关的内容,内容多为原创,Python Java Scala SQL 代码,CV NLP 推荐系统等,Spark Flink Kafka Hbase Hive Flume等等~写的都是纯干货,各种顶会的论文解读,一起进步。 今天继续和大家分享一下HIve数

    2023年04月24日
    浏览(38)
  • 大数据开发之电商数仓(hadoop、flume、hive、hdfs、zookeeper、kafka)

    1.1.1 数据仓库概念 1、数据仓库概念: 为企业制定决策,提供数据支持的集合。通过对数据仓库中数据的分析,可以帮助企业,改进业务流程、控制成本,提高产品质量。 数据仓库并不是数据的最终目的地,而是为数据最终的目的地做好准备,这些准备包括对数据的:清洗、

    2024年01月22日
    浏览(60)
  • 使用Python创建faker实例生成csv大数据测试文件并导入Hive数仓

    这段Python代码用于生成模拟的个人信息数据,并将数据保存为CSV文件。 导入必要的模块: csv :用于处理CSV文件的模块。 random :用于生成随机数。 faker :用于生成模拟数据的库。 定义生成数据所需的基本信息: file_base_path :生成的CSV文件的基本路径。 rows_per_file :每个C

    2024年02月07日
    浏览(35)
  • 数仓知识11:Hadoop生态及Hive、HBase、Impala、HDFS之间的关系

    Hive、HBase、Impala、HDFS是Hadoop生态体系中常用的开源产品,各个产品间是一个什么样的关系,许多人都搞不清楚,本文将进行研究分析。 Hadoop生态 在了解Hive、HBase、Impala、和HDFS之前,先熟悉一下Hadoop的生态。 Apache Hadoop软件库是一个框架,允许使用简单的编程模型在计算机集

    2023年04月08日
    浏览(52)
  • 【Spark数仓项目】需求八:MySQL的DataX全量导入和增量导入Hive

    【Spark数仓项目】需求八:MySQL的DataX全量导入和增量导入Hive 本需求将模拟从MySQL中向Hive数仓中导入数据,数据以时间分区。测试两种导入场景,一种是将数据全量导入,即包含所有时间分区;另一种是每天运行调度,仅导入当天时间分区中的用户数据。 mysql表建表语句:

    2024年02月03日
    浏览(38)
  • 用户认证-Kerberos的介绍和使用(Hadoop、Hive、数仓流程、Presto、Kylin集成配置)

    概述 Kerberos是一种计算机网络认证协议,用来在非安全网络中,对个人通信以安全的手段进行 身份认证 , 它允许某实体在非安全网络环境下通信,向另一个实体以一种安全的方式证明自己的身份 。这个词又指麻省理工学院为这个协议开发的一套计算机软件。软件设计上采用

    2024年02月02日
    浏览(53)
  • [Hadoop高可用集群]数仓工具之Hive的安装部署(超级详细,适用于初学者)

    📕作者:喜欢水星记 🏆系列:Hadoop高可用集群 🔋收藏:本文记录我搭建过程供大家学习和自己之后复习,如果对您有用,希望能点赞收藏加关注 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转

    2024年02月05日
    浏览(59)
  • HIVE基本查询操作(二)——第1关:Hive排序

    第1关:Hive排序 任务描述 本关任务: 2013 年 7 月 22 日买入量最高的三种股票。 相关知识 为了完成本关任务,你需要掌握:1. Hive 的几种排序;2. limit 使用。 hive的排序 ① order by order by 后面可以有多列进行排序,默认按字典排序( desc :降序, asc (默认):升序); order by 为全局排

    2023年04月24日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包