【星环云课堂大数据实验】InceptorSQL使用方法

这篇具有很好参考价值的文章主要介绍了【星环云课堂大数据实验】InceptorSQL使用方法。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、InceptorSQL概述

InceptorSQL是一个**分布式SQL引擎,**经常在一下这些场景中使用:1. 批处理; 2.统计分析;3. 图计算和图检索;4.交互式统计分析

Inceptor中表的种类有很多,他们的划分规则如下:

  1. 按 Inceptor的所有权 分类可分为:外部表(或简称为外表)和托管表(内表)
  2. 按 表的存储格式 分类可分为:TEXT表、ORC表、CSV表和Holodesk表。
  3. 按表 是否分区 可分为:分区表和非分区表
  4. 按表 是否分桶 可分为:分桶表和非分桶表。
  • 托管表(内表)
    CREATE TABLE 默认创建托管表。Inceptor对托管表有所有权——用 DROP 删除托管表时,Inceptor会将表中数据全部删除。
  • 外表
    外表用 CREATE EXTERNAL TABLE 创建,外表中的数据可以保存在HDFS的一个指定路径上(和LOCATION <hdfs_path> 合用)。Inceptor对外表没有所有权。用DROP 删除外部表时,Inceptor删除表在metastore中的元数据而不删除表中数据,也就是说 DROP 仅仅解除Inceptor对外表操作的权利。
  • Text表
    文本格式的表,统计和查询性能都比较低,也不支持事务处理,所以通常用于将文本文件中的原始数据导入Inceptor中。针对不同的使用场景,用户可以将其中的数据放入ORC表或Holodesk表中。Inceptor提供两种方式将文本文件中的数据导入TEXT表中:
    (1)建外部TEXT表,让该表指向HDFS上的一个目录,Inceptor会将目录下文件中的数据都导入该表。(推荐)
    (2)建TEXT表(外表内表皆可)后将本地或者HDFS上的一个文件或者一个目录下的数据 LOAD 进该表。这种方式在安全模式下需要多重认证设置,极易出错,星环科技 不推荐 使用这个方式导数据。
  • CSV表
    CSV表的数据来源为CSV格式(Comma-Separated Values)的文件。文件以纯文本形式存储表格数据(数字和文本),CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符。通常,所有记录都有完全相同的字段序列。和TEXT表相似,CSV表常用于向Inceptor中导入原始数据,然后针对不同场景,用户可以将其中的数据放入ORC表或Holodesk表中星环科技 不建议在任何计算场景中使用CSV表
  • ORC表
    ORC表即ORC格式的表。在Inceptor中,ORC表还分为ORC事务表和非事务表。a. ORC事务表支持事务处理和更多增删改语法(INSERT VALUES/UPDATE/DELETE/MERGE),所以如果您需要对表进行事务处理,应该选择使用ORC事务表。b. ORC非事务表则主要用来做统计分析。
  • Holodesk表
    Holodesk表存储在内存或者SSD中(可以根据您的需要设置),同时,星环科技为其提供了一系列优化工具,使得在Holodesk表上进行大批量复杂查询能达到极高的性能。所以,如果您的数据量特别大,查询非常复杂,您应该选择使用Holodesk表。

二、实验环境

基于星环云课堂TranswarpVD

三、实验准备

  1. 进入TDH-Client目录下
    cd /transwarp/Desktop/TDH-Client
  2. 执行TDH Client的init.sh脚本,此操作只对当前Session有效
    source ./init.sh

四、实验目的

• 掌握Inceptor SQL的基本使用。

• 了解Inceptor各类表的区别与应用场景。

五、实验步骤

5.1 使用Waterdrop连接Inceptor

  1. 打开Transwarp Manager查看集群中Inceptor主节点的Server Host
    查看结果为tdh-05(后面会用)
    inceptor 数据库 查询实例,大数据,大数据,InceptorSQL,ORC表,实验报告
    inceptor 数据库 查询实例,大数据,大数据,InceptorSQL,ORC表,实验报告
  2. 在桌面点击waterdrop,并建立与Inceptor的连接

inceptor 数据库 查询实例,大数据,大数据,InceptorSQL,ORC表,实验报告
3. 在弹出界面中填写如下信息,其中Server Host为Inceptor主节点地址,之前步骤中已经获取到,Port为10000,Auth Type选择为LDAP。
inceptor 数据库 查询实例,大数据,大数据,InceptorSQL,ORC表,实验报告
4. 进行连接测试
inceptor 数据库 查询实例,大数据,大数据,InceptorSQL,ORC表,实验报告
5. 点击Next完成连接操作。
inceptor 数据库 查询实例,大数据,大数据,InceptorSQL,ORC表,实验报告
6. 建立与Inceptor的连接,并打开SQL编辑器,之后的SQL操作都在编辑器中完成,编写好SQL后,选中SQL内容,按快捷键Ctrl+回车执行。
inceptor 数据库 查询实例,大数据,大数据,InceptorSQL,ORC表,实验报告
inceptor 数据库 查询实例,大数据,大数据,InceptorSQL,ORC表,实验报告
inceptor 数据库 查询实例,大数据,大数据,InceptorSQL,ORC表,实验报告

5.2、WordCount

(1)创建wordcount.txt文件,并上传HDFS
• 任务:将本地文件wordcount.txt上传至HDFS目录中。
• 步骤
Linux:

1.echo -e “Deer Bear River\nCar Car River\nDeer Car Bear” > /transwarp/Desktop/wordcount.txt
// 在本地创建wordcount.txt文件,并完成数据写入inceptor 数据库 查询实例,大数据,大数据,InceptorSQL,ORC表,实验报告

2.hadoop fs -mkdir -p /training/{student_name}/inceptor_data/wordcount
// 在HDFS中创建作业输入目录inceptor 数据库 查询实例,大数据,大数据,InceptorSQL,ORC表,实验报告

3.hadoop fs -put /transwarp/Desktop/wordcount.txt /training/{student_name}/inceptor_data/wordcount/
// 将wordcount.txt上传到作业输入目录inceptor 数据库 查询实例,大数据,大数据,InceptorSQL,ORC表,实验报告
4. hadoop fs -chmod -R 777 /training/{student_name}/inceptor_data/wordcount/
inceptor 数据库 查询实例,大数据,大数据,InceptorSQL,ORC表,实验报告
(2)在Waterdrop中创建内表,并导入HDFS数据
• 任务:创建内表docs,并将HDFS中的数据导入。
• 步骤
SQL:

1、 create database {database_name};
// 创建数据库, 命名规范为db_账号名,

2、use {database_name};
// 进入数据库
inceptor 数据库 查询实例,大数据,大数据,InceptorSQL,ORC表,实验报告

3、create table docs(line string);
// docs表创建

4.load data inpath ‘/training/{student_name}/inceptor_data/wordcount’ into table docs;
// 导入hdfs数据
inceptor 数据库 查询实例,大数据,大数据,InceptorSQL,ORC表,实验报告
(3)创建结果表
• 任务:创建内表wc,保存词频统计结果。
• 步骤
SQL:
1、 create table wc(word string, totalword int);
// docs表创建
(4)计算wordcount
• 任务:对docs表完成词频统计,将结果保存到wc表中。
• 步骤
SQL:

1、from (select explode(split(line, ’ ')) as word from docs) w
insert into table wc
select word, count(1) as totalword
group by word
order by word;
// wordcount统计
inceptor 数据库 查询实例,大数据,大数据,InceptorSQL,ORC表,实验报告

2、select * from wc;
// 查看分析结果
inceptor 数据库 查询实例,大数据,大数据,InceptorSQL,ORC表,实验报告

5.3、外部表与内部表

(1)创建外部表,查看数据格式
• 任务:为data.csv文件创建外部表,并查看数据内容。
• 步骤
SQL:
// 在Inceptor中创建外表,并查看数据
drop table if exists ext_table;
create external table ext_table(rowkey string, num int, country int, rd string) row format delimited fields terminated by ‘,’ location ‘/images/inceptor_data’;
select * from ext_table limit 10;
inceptor 数据库 查询实例,大数据,大数据,InceptorSQL,ORC表,实验报告
(2)创建内表,并接入外表数据
• 任务:创建ORC内表,并将外表数据导入。
• 步骤
SQL:
// 在Inceptor中创建内表
drop table if exists inner_table;
create table inner_table(rowkey string, num int, country int, rd int) stored as orc;
// 将外表数据导入到内表中. insert into inner_table select * from ext_table;
// 查看内表数据
select * from inner_table limit 10;
inceptor 数据库 查询实例,大数据,大数据,InceptorSQL,ORC表,实验报告

5.4、普通ORC表

• 任务:并创建普通ORC表,并验证ORC表的事务性。
• 步骤
SQL:
// 创建数据库和ORC表
drop table if exists orc_table;
create table orc_table(key int, value string) stored as orc;
// 向ORC表中插入数据,会报错(ORC表没有事务)
insert into orc_table values(1,‘test’);
inceptor 数据库 查询实例,大数据,大数据,InceptorSQL,ORC表,实验报告

5.5、创建ORC事务表

• 任务:创建ORC事务表,并进行事务操作。
• 步骤
SQL:
// 设置开启事务
set transaction.type=inceptor;
// 设置PLSQL编译器不检查语义
set plsql.compile.dml.check.semantic=false;
// 创建ORC事务表
drop table if exists atomicity_table;
create table atomicity_table(key int, value string) clustered by(key) into 8 buckets stored as orc tblproperties(‘transactional’=‘true’);
向ORC事务表中插入数据
insert into atomicity_table values(1,‘src1’);
insert into atomicity_table values(2,‘src2’);
// 查看数据是否写入成功
select * from atomicity_table;
// 更新ORC事务表数据
update atomicity_table set value = ‘src3’ where key = 1;
// 查看数据是否更新成功
select * from atomicity_table;
inceptor 数据库 查询实例,大数据,大数据,InceptorSQL,ORC表,实验报告

5.6、创建ORC分区表

• 任务:创建单值分区表user_acc_level,表包含字段为name,分区字段为acc_level。
• 步骤
SQL:
// 创建单值分区表,分区键=acc_level
CREATE TABLE user_acc_level (name STRING)
PARTITIONED BY (acc_level STRING);
inceptor 数据库 查询实例,大数据,大数据,InceptorSQL,ORC表,实验报告

5.7、创建ORC分区分桶表

• 任务:创建范围分区分桶表,并存储为ORC格式。
• 步骤
SQL:
// 创建范围分区分桶表,分区键=sj,分桶键=mbbh
create table hq_ais_history_data_orc_bucket (
cbm string,
csx int,
cwjqd int,
dzdwzz int,
gjmc string,
hh string,
hs double,
hwlx int,
hx double,
hxzt int,
imobm string,
mbbh string,
mdd string,
txzt int,
xxlx int,
xxly int,
yjddsj string,
zdjss double,
zxl int,
lat double,
lon double,
mbsj int
)
partitioned by range (sj string) (
partition values less than (“2014-11-04 23:59:59”),
partition values less than (“2014-11-05 23:59:59”),
partition values less than (“2014-11-06 23:59:59”),
partition values less than (“2014-11-07 23:59:59”),
partition values less than (“2014-11-08 23:59:59”),
partition values less than (“2014-11-09 23:59:59”),
partition values less than (“2014-11-10 23:59:59”),
partition values less than (“2014-11-11 23:59:59”),
partition values less than (“2015-08-05 23:59:59”)
)
clustered by (mbbh) into 23 buckets
stored as orc;

inceptor 数据库 查询实例,大数据,大数据,InceptorSQL,ORC表,实验报告文章来源地址https://www.toymoban.com/news/detail-773213.html

到了这里,关于【星环云课堂大数据实验】InceptorSQL使用方法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【大数据实验五】 MapReduce初级编程实践

    1实验目的 1.通过实验掌握基本的MapReduce编程方法; 2.掌握用MapReduce解决一些常见的数据处理问题,包括数据去重、数据排序和数据挖掘等。 2实验平台 已经配置完成的Hadoop伪分布式环境。 (1)操作系统:Linux(Ubuntu18.04) (2)Hadoop版本:3.1.3 3实验内容和要求 1.编程实现文件

    2024年02月03日
    浏览(133)
  • 云计算与大数据实验四 HDFS编程

    一、实验目的 深入理解 HDFS 工作原理和编程思想 使用 HDFS 的 Java 接口进行文件的读写 使用 HDFS 的 Java 接口进行之上传文件 使用 HDFS 的 Java 接口进行之删除文件 二、实验内容 HDFS 的 Java API 接口进行文件的读写操作 HDFS 的 Java API 接口进行之上传文件操作 HDFS 的 Java API 接口进

    2024年02月08日
    浏览(41)
  • 云计算与大数据实验五 MapReduce编程

    一、实验目的 了解Mapper类,Reducer类和Job类 掌握什么是MapReduce及使用MapReduce进行运算 掌握挖掘父子辈关系,给出祖孙辈关系的表格 二、实验内容 使用Map/Reduce计算班级中年龄最大的学生 使用Map/Reduce编程实现文件合并和去重操作 对给定的表格进行信息挖掘 编写实现日期操作

    2023年04月24日
    浏览(61)
  • 大数据实验 实验六:Spark初级编程实践

    实验环境:Windows 10 Oracle VM VirtualBox 虚拟机:cnetos 7 Hadoop 3.3 因为Hadoop版本为3.3所以在官网选择支持3.3的spark安装包 解压安装包到指定文件夹 配置spark-env.sh 启动成功 (1) 在spark-shell中读取Linux系统本地文件“/home/hadoop/test.txt”,然后统计出文件的行数; (2) 在spark-shell中读

    2024年02月04日
    浏览(69)
  • 大数据实验 实验二:熟悉HDFS常用操作

    附件中有word版本的实验报告 理解HDFS在Hadoop体系结构中的角色。 熟练使用HDFS操作常用的Shell命令。 熟悉HDFS操作常用的Java API。 Oracle VM VirtualBox虚拟机 系统版本centos7 JDK1.8版本 Hadoop-3.1.3 Windows11 Java IDE:IDEA 1.向HDFS中上传任意文本文件,如果指定的文件在HDFS中已经存在,由用户

    2024年04月12日
    浏览(31)
  • 大数据实验 实验三:熟悉常用的HBase操作

    (1)理解HBase在Hadoop体系结构中的角色; (2)熟练使用HBase操作常用的Shell命令; (3)熟悉HBase操作常用的Java API。 操作系统:centos7; Hadoop版本:3.3; HBase版本:2.2.2; JDK版本:1.8; Java IDE:IDEA。 (1) 列出HBase所有的表的相关信息,例如表名、创建时间等; (2) 在终端

    2024年02月04日
    浏览(34)
  • 【基于HBase和ElasticSearch构建大数据实时检索项目】

    利用HBase存储海量数据,解决海量数据存储和实时更新查询的问题; 利用ElasticSearch作为HBase索引,加快大数据集中实时查询数据; 使用到的大数据组件有:Hadoop-2.7.3、HBase-1.3.1、zookeeper-3.4.5、ElasticSearch-7.8.0 实验环境: 虚拟机(操作系统CentOS7.6) + 个人PC(Windows)+ Eclipse或者

    2024年02月14日
    浏览(35)
  • 图扑数字孪生助力智慧冷链园区实现大数据实时监控

    近年来,业界学者及企业就智慧冷链物流展开深入研究,2010 年 IBM 发布的《智慧的未来供应链》研究报告中提出智慧供应链概念,并由此延伸出智慧物流概念,即智慧物流是以信息化为依托并广泛应用物联网、人工智能、大数据、云计算等技术工具,在物流价值链上的 6 项基

    2024年02月01日
    浏览(47)
  • 云计算与大数据实验三 HDFS的基本操作

    一、实验目的 理解 HDFS 架构和工作原理 掌握 HDFS 部署环境和步骤 掌握 HDFS( 集群的启动 start-dfs.sh) 启动 使用 Hadoop 命令 ( 文件的增 / 删 / 改 / 查 / 上传 / 下载 ) 来操作分布式文件系统 二、实验内容 HDFS 伪分布式环境搭建 HDFS( 集群的启动 start-dfs.sh) 启动 练习 Hadoop 命令 ( 文件

    2024年02月04日
    浏览(27)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包