Airflow metastore清理

这篇具有很好参考价值的文章主要介绍了Airflow metastore清理。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

点赞发Nature
关注中Science

Airflow 运行中存在许多status record以table的形式保存的数据库中,需要定时清理:

用airflow command line tool可以进行清理:
airflow db clean --clean-before-timestamp <timestamp> -t <table_name> --dry-run -verborse -y

airflow metastore的table主要有

  • log
  • task_instance
  • dag_run
  • dag
  • task_fail
  • task_instance
  • xom

timestamp的格式为yyyy-mm-dd

譬如:
airflow db clean -clean-before-timestamp 2023-01-01 -t log
————————
我目前奥尔堡大学做博士后(我的google scholar, 我的Github),关注能源与环境数据科学。

专注于分享利用数据科学工具,欢迎一起交流、学习、合作。

关于我的博客内容、其他相关的研究问题,有问题可以下方👇评论、或私信我~文章来源地址https://www.toymoban.com/news/detail-636295.html

到了这里,关于Airflow metastore清理的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Learning Spark: LightningFast Big Data Analysis

    作者:禅与计算机程序设计艺术 Spark是一种开源快速通用大数据分析框架。它能够在超高速的数据处理能力下,轻松完成海量数据处理任务。相比于其他大数据处理系统(如Hadoop)来说,Spark具有如下优点: 更快的速度:Spark可以更快地处理超高速的数据,特别是在内存计算时,

    2024年02月08日
    浏览(57)
  • Databases and Big Data Technologies: Essential Knowledg

    作者:禅与计算机程序设计艺术 互联网正在改变着传统行业和新兴行业的结构,电子商务、社交网络、移动应用程序等新兴产业的迅速发展也催生了基于数据中心的数据库应用的需求,而这方面的知识技能是越来越重要。然而,除了数据库技术的基础知识和技术栈外,基于数

    2024年02月07日
    浏览(49)
  • IDEA 中使用 Big Data Tools 连接大数据组件

    简介 Big Data Tools 插件可用于 Intellij Idea 2019.2 及以后的版本。它提供了使用 Zeppelin,AWS S3,Spark,Google Cloud Storage,Minio,Linode,数字开放空间,Microsoft Azure 和 Hadoop 分布式文件系统(HDFS)来监视和处理数据的特定功能。 下面来看一下 Big Data Tools 的安装和使用,主要会配置

    2023年04月08日
    浏览(66)
  • Big Data Tools插件(详细讲解安装,连接,包教包会!!!)

    🐮博主syst1m 带你 acquire knowledge! ✨博客首页——syst1m的博客💘 😘《CTF专栏》超级详细的解析,宝宝级教学让你从蹒跚学步到健步如飞🙈 😎《大数据专栏》大数据从0到秃头👽,从分析到决策,无所不能❕ 🔥 《python面向对象(人狗大战)》突破百万的阅读量,上过各种各样

    2024年02月03日
    浏览(43)
  • Establishing a RealTime Big Data Platform for Transport

    作者:禅与计算机程序设计艺术 Apache Kafka是一个开源的分布式流处理平台,它最初由LinkedIn公司开发,用于实时数据管道及流动计算,随着时间的推移,Kafka已成为最流行的开源消息代理之一。同时,它还是一个快速、可靠的分布式存储系统,它可以作为消息队列来用。Mong

    2024年02月07日
    浏览(57)
  • How AI is changing Big Data and Business

    作者:禅与计算机程序设计艺术 随着人工智能的不断进步、计算机算力的不断提高,以及基于云计算平台的大数据产生的越来越多的数据,人工智能已成为经济界和产业界的一股重要力量。而人工智能究竟能给企业带来哪些新的机遇和变化,如何运用人工智能为企业提供更好

    2024年02月08日
    浏览(40)
  • Building a big data platform system, architecture desig

    作者:禅与计算机程序设计艺术 Apache Hadoop是一个开源的分布式计算平台,它可以运行在廉价的商用硬件上,并提供可扩展性和高容错性。作为Hadoop框架的一部分,MapReduce是一种编程模型和执行引擎,用于对大数据集进行并行处理。但是,由于其复杂性和庞大的体系结构,开

    2024年02月05日
    浏览(62)
  • Apache Hadoop: Building a Big Data Distributed Environm

    作者:禅与计算机程序设计艺术 Apache Hadoop (以下简称HDFS)是一个开源的分布式文件系统,用来存储大量的数据集并进行计算处理。它可以处理超大数据集、实时数据分析、日志聚类等应用场景。HDFS被广泛应用于企业数据仓库、电子商务网站、搜索引擎、Hadoop生态系统中的大多

    2024年02月06日
    浏览(50)
  • Introduction to Flink Streaming Platform for Big Data

    作者:禅与计算机程序设计艺术 Flink是一个开源的分布式流处理框架,它允许快速轻松地进行实时数据处理,提供了一个完整的数据流程解决方案。它支持低延迟的实时数据计算、高吞吐量的实时数据传输以及复杂事件处理(CEP)。Flink在Apache顶级项目中排名第二,同时也被很多

    2024年02月07日
    浏览(56)
  • 大数据:HDFS操作的客户端big data tools和NFS

    2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开 测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库 这oracle比sql安全,强大多了,所以你需要学

    2024年02月09日
    浏览(56)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包