insert overwrite table:数据仓库和数据分析中的常用技术

这篇具有很好参考价值的文章主要介绍了insert overwrite table:数据仓库和数据分析中的常用技术。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、介绍:

INSERT OVERWRITE TABLE 是用于覆盖(即替换)目标表中的数据的操作。它将新的数据写入表中,并删除原有的数据。这个操作适用于非分区表和分区表。

二、使用场景:

1、数据更新:当您需要更新表中的数据时,可以使用覆写操作。通过覆写,您可以将新的数据写入表中,替换原有的数据。这在需要定期更新或替换表中数据的情况下非常有用。
2、数据重载:如果您需要重新加载表中的数据,覆写操作可以清空表并将新的数据加载进去。这在数据仓库或数据分析任务中很常见,当需要重新加载或替换表中的数据时,覆写操作是一个快速有效的方法。
3、数据清理:当需要删除表中的数据时,可以使用覆写操作。通过将一个空表覆写到目标表中,可以清空表中的数据并释放存储空间。
注:insert overwrite table 是一个具有破坏性操作的语句,因为它会完全覆盖表中的数据。在使用之前,请确保您理解该操作的影响,并备份重要的数据以防止意外数据丢失。

三、普通表应用:

1、准备工作
create table db_1.tb_student(
    id  int,
    name string,
    city    string
)
row format delimited fields terminated by ',';
insert into db_1.tb_student values
(1,'张三','beijing') ,                                 
(2, '李四', 'beijing'),
(3, '王五', 'beijing'),
(4, '妲己', 'shanghai'),
(5, '哪吒', 'shanghai'),
(6, '雷震子', 'shanghai'),
(7, '悟空', 'guangzhou'),
(8, '八戒', 'guangzhou'),
(9, '沙和尚', 'guangzhou');
create table db_1.tb_student_2(
    id  int,
    name string,
    city    string
)
row format delimited fields terminated by ',';
drop table if exists tb_student_3_part;
create table db_1.tb_student_3_part(
    id  int,
    name string
)
partitioned by (city    string)
row format delimited fields terminated by ',';
2、插入数据
insert into db_1.tb_student_2
select * from tb_student;
select * from db_1.tb_student_2; 

insert overwrite table,数据仓库,数据分析,hive

3、按条件覆写
insert overwrite table db_1.tb_student_2
select * from tb_student
where id>=6
;

insert overwrite table,数据仓库,数据分析,hive

四、分区表应用

1、全部插入
set hive.exec.dynamic.partition.mode=nonstrict;
insert into db_1.tb_student_3_part partition(city)
select * from tb_student
;
select * from tb_student_3_part;

insert overwrite table,数据仓库,数据分析,hive

2、部分插入
insert overwrite table db_1.tb_student_3_part partition(city)
select * from tb_student where id between 6 and 8
;
select * from tb_student_3_part;

insert overwrite table,数据仓库,数据分析,hive

五、总结

1、对于分区表,insert overwrite table 操作会覆盖指定分区的数据,而不会影响其他分区的数据。只有指定的分区会被更新或替换。这样可以实现更精细和高效的数据管理。
2、而对于普通表(即非分区表),insert overwrite table 操作将完全覆盖表中的所有数据,不考虑任何分区。所有的数据将被删除,并被新插入的数据替换。
3、因此,分区表和普通表在 insert overwrite table 操作上的区别在于操作的粒度。分区表仅覆盖指定分区的数据,而普通表覆盖整个表的数据。文章来源地址https://www.toymoban.com/news/detail-712795.html

到了这里,关于insert overwrite table:数据仓库和数据分析中的常用技术的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 8月《中国数据库行业分析报告》已发布,聚焦数据仓库、首发【全球数据仓库产业图谱】

    为了帮助大家及时了解中国数据库行业发展现状、梳理当前数据库市场环境和产品生态等情况,从2022年4月起,墨天轮社区行业分析研究团队出品将持续每月为大家推出最新《中国数据库行业分析报告》, 持续传播数据技术知识、努力促进技术创新与行业生态发展 ,目前已更

    2024年02月10日
    浏览(52)
  • 数据仓库系列:StarRocks 下一代高性能分析数据仓库的架构、数据存储及表设计

    本文是学习StarRocks的读书笔记,让你快速理解下一代高性能分析数据仓库的架构、数据存储及表设计。 StarRocks的架构相对简单。 整个系统只包含两种类型的组件,前端(FE)和后端(BE),StarRocks不依赖任何外部组件,简化了部署和维护。 FE和BE可以在不停机的情况下横向扩展。

    2024年02月16日
    浏览(45)
  • 数据中台的数据分析与可视化:从数据仓库到数据中台

    作者:禅与计算机程序设计艺术 数据中台(Data Mart)是一种新的IT架构模式,它可以帮助企业解决现代企业信息化发展中的关键问题:海量数据的存储、分析处理和服务,包括但不限于报表生成、数据质量管理、数据驱动的业务决策、流量调控、风险预测等。数据中台融合了

    2024年02月09日
    浏览(31)
  • 数据仓库的数据科学与机器学习:实现智能化的数据分析

    数据仓库是一种用于存储和管理大量结构化数据的系统,它通常用于企业和组织的业务分析和决策支持。数据科学和机器学习是数据分析的两个重要领域,它们可以帮助企业和组织从大量数据中发现隐藏的知识和模式,从而提高业务效率和竞争力。 在过去的几年里,随着数据

    2024年04月13日
    浏览(37)
  • 数据仓库和商业智能:数据处理与分析的基础

    [toc] 引言 1.1. 背景介绍 随着互联网和信息技术的快速发展,数据已经成为企业获取竞争优势的核心资产之一。然而,如何处理、存储和分析这些海量数据成为了摆在企业面前的一个严峻挑战。数据仓库和商业智能(BI)应运而生,成为了实现企业数据分析和决策的重要工具。

    2024年02月17日
    浏览(37)
  • 商业智能系统的主要功能包括数据仓库、数据ETL、数据统计输出、分析功能

    ETL服务内容包含: 数据迁移 数据合并 数据同步 数据交换 数据联邦 数据仓库

    2024年02月07日
    浏览(31)
  • [架构之路-174]-《软考-系统分析师》-5-数据库系统-7-数据仓库技术与数据挖掘技术

    数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。近年来,人们对数据仓库技术的关注程度越来越尚,其原因是过去的几十年中 ,建设了无数的应用系统,积累了大量的数据,但这些数据没有得到很好的利用,有时反而成为企

    2023年04月23日
    浏览(45)
  • 云数据仓库实践:AWS Redshift在大数据储存分析上的落地经验分享

    🏆作者简介,黑夜开发者,CSDN领军人物,全栈领域优质创作者✌,CSDN博客专家,阿里云社区专家博主,2023年6月CSDN上海赛道top4。 🏆数年电商行业从业经验,历任核心研发工程师,项目技术负责人。 🏆本文已收录于PHP专栏:数据库与数据仓库 🎉欢迎 👍点赞✍评论⭐收藏

    2024年02月08日
    浏览(32)
  • 云原生数据仓库AnalyticDB Mysql(ADB分析型数据库)-DML语法之新增插入数据详解

    ADB分析型数据库,是阿里云平台上资源,原名叫云原生数据仓库AnalyticDB Mysql,俗称ADB分析型数据库,那么ADB的语法与mysql关系型数据库语法存在一定的差异。 本文为笔记,介绍ADB的DML语法的应用。 1. INSERT INTO INSERT INTO用于向表中插入数据,主键重复时会自动忽略当前写入数据

    2024年02月15日
    浏览(31)
  • 数据分析:方差分析在R语言中的应用

    方差分析的R语言实现包括以下部分: 数据导入 数据清洗 ANOVA计算 结果解析 ANOVA评估 参考教程Analysis_of_Variance 随机生成数据 存储数据 txt数据格式 xlsx数据格式 筛选数据:丢弃A组数据 数据平均值和其他指标 展示数据: boxplot one-way ANOVAs: 使用aov函数运行单因素方差分析 (公式

    2024年04月26日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包