自动清理 ES 历史数据

这篇具有很好参考价值的文章主要介绍了自动清理 ES 历史数据。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

一、 背景

二、解决方案

三、实现操作

三、合并定时任务的例子


一、 背景

        随着业务的增长和时间的变化,ES 数据库的存储空间越来越大,存储数据多数为系统监控日志,保存的数据不需要长期保留,多数情况只需要保留几个月ES数据即可,既可以减轻ES服务器的负载和资源使用率,还可以节约更多的存储空间。

二、解决方案

      由于我的环境是k8s集群,ES 主要是为k8s集群内部应用服务,没有映射外部访问端口,所以不能直接使用Linux自带的crontab定时ES数据清理脚本。需要创建一个容器定时任务来定时清理ES历史数据。

        k8s定时任务,会根据你设置的时间,定时启动pod实例来执行任务,pod完成执行任务后,pod的状态会由 running 状态变成 Completed 状态。查看定时任务脚本执行日志,可通过查看pod日志实现。

       创建两个定时任务,一个定时任务在删除ES索引前执行,用于核对和审计定时任务删除的索引;另一个是关键的定时任务,用于删除ES历史数据。第一个定时任务可以根据实际情况选择性决定是否要创建。(当然你也可以直接把两个任务合并到一起,将两句curl命令完整内容作为command的参数,两句curl要使用分号 或者 && 连接)

三、实现操作

1、获取ES索引信息 

        获取ES索引定时任务编排文件:  elastic-get-indeices.yaml

apiVersion: batch/v1beta1
kind: CronJob
metadata:
  annotations: 
    description: "先获取一次索引信息,然后再删除索引;以便核对每次删除的索引"
  labels:
    app: elastic-get-indeices
  name: elastic-get-indeices
spec:
  concurrencyPolicy: Forbid
  failedJobsHistoryLimit: 5
  schedule: "0 0 * * *"
  jobTemplate:
    metadata:
      labels:
        app: elastic-get-indeices
    spec:
      activeDeadlineSeconds: 360
      backoffLimit: 3
      completions: 1
      parallelism: 1
      template:
        metadata:
          annotations:
            kubesphere.io/imagepullsecrets: '{}'
        spec:
          containers:
          - command:
            - /bin/sh
            - -c
            - curl -XGET -u ${esuser}:${espass} ${esurl}/_cat/indices | sort -k 3
            env:
            - name: esuser
              value: "elastic"  # ES 用户,使用默认用户即可
            - name: espass
              value: "ES密码"    # 替换成 ES 真实的 密码
            - name: esurl
              value: "http://eshost:9200"  # 替换成 ES 真实 url 地址

            image: centos:7.9.2009  ## 使用任何一个带有 curl 命令的基础镜像都可以
            imagePullPolicy: IfNotPresent
            name: conjob
            resources: {}
            terminationMessagePath: /dev/termination-log
            terminationMessagePolicy: File
            volumeMounts:
            - mountPath: /etc/localtime
              name: host-time
              readOnly: true
          dnsPolicy: ClusterFirst
          restartPolicy: Never
          schedulerName: default-scheduler
          securityContext: {}
          serviceAccount: default
          serviceAccountName: default
          terminationGracePeriodSeconds: 30
          volumes:
          - hostPath:
              path: /etc/localtime
              type: ""
            name: host-time
  startingDeadlineSeconds: 30
  successfulJobsHistoryLimit: 5
  suspend: false

创建获取ES索引信息的定时任务:

# 创建 获取 ES 索引 信息定时任务
kubectl apply -f elastic-get-indeices.yaml

 2、删除 ES 30天之前的历史数据

        删除ES历史数据编排文件: elastic-delete-data.yaml

apiVersion: batch/v1beta1
kind: CronJob
metadata:
  annotations: 
    description: "定时删除 ES 历史数据;保留30天的历史数据"
  labels:
    app: elastic-delete-data
  name: elastic-delete-data
spec:
  concurrencyPolicy: Forbid
  failedJobsHistoryLimit: 5
  schedule: "0 1 * * *"    # 每天凌晨 1 点 自动动清理 ES 30天前的历史数据
  jobTemplate:
    metadata:
      labels:
        app: elastic-delete-data
    spec:
      activeDeadlineSeconds: 360
      backoffLimit: 3
      completions: 1
      parallelism: 1
      template:
        metadata:
          annotations:
            kubesphere.io/imagepullsecrets: '{}'
        spec:
          containers:
          - command:
            - /bin/sh
            - -c
            - curl -XDELETE -u ${esuser}:${espass} ${esurl}/*$(date +%Y%m%d -d "30 days ago")*
            env:
            - name: esuser
              value: "elastic"  # ES 用户,使用默认用户即可
            - name: espass
              value: "ES密码"    # 替换成 ES 真实的 密码
            - name: esurl
              value: "http://eshost:9200"  # 替换成 ES 真实 url 地址

            image: centos:7.9.2009  # 使用任何一个带有 curl 命令的基础镜像都可以
            imagePullPolicy: IfNotPresent
            name: conjob
            resources: {}
            terminationMessagePath: /dev/termination-log
            terminationMessagePolicy: File
            volumeMounts:
            - mountPath: /etc/localtime
              name: host-time
              readOnly: true
          dnsPolicy: ClusterFirst
          restartPolicy: Never
          schedulerName: default-scheduler
          securityContext: {}
          serviceAccount: default
          serviceAccountName: default
          terminationGracePeriodSeconds: 30
          volumes:
          - hostPath:
              path: /etc/localtime
              type: ""
            name: host-time
  startingDeadlineSeconds: 30
  successfulJobsHistoryLimit: 5
  suspend: false
# 创建 定时删除 ES 历史数据任务
 kubectl apply -f elastic-delete-data.yaml

3、查看创建好的定时任务

# 注意命名空间,若不是当前默认命名空间 记得 指定命名空间
kubectl get cronjobs.batch

自动清理 ES 历史数据

 4、已成功完成的定时任务

自动清理 ES 历史数据

 5、通过删除前和删除后的索引情况来核对删除了那些索引

说明: 

        curl -X DELETE 删除ES索引是没有详细日志的,所以需要在删除前执行 curl -X GET 获取删除前索引信息,一旦出现异常就可以更好判断当次定时任务实际删除了那些内容,实际上是否成功按照保留天数执行了。

三、合并定时任务的例子

        1、一个定时任务执行多条命令,在删除ES历史数据前后分别获取一次ES索引情况;

        2、高级用法关键要点是:环境变量的互相依赖和引用,一定要注意环境变量的顺序和写法

        3、对于初学者,其实我更推荐第一种写法,简单明了,看着舒服,不易出错

        4、获取ES索引写法:curl -X GET -u ES用户:ES密码 http://127.0.0.1:9200/_cat/indices

        5、删除ES 索引参考:  curl -X DELETE -u ES用户:ES密码 http://127.0.0.1:9200/索引名字

         6、环境变量相互依赖和引用使用,可以参考官方文档:https://kubernetes.io/zh-cn/docs/tasks/inject-data-application/define-interdependent-environment-variables/https://kubernetes.io/zh-cn/docs/tasks/inject-data-application/define-interdependent-environment-variables/文章来源地址https://www.toymoban.com/news/detail-477437.html

---
apiVersion: batch/v1beta1
kind: CronJob
metadata:
  annotations: 
    description: "分别输出删除ES历史索引操作前后的索引情况,以及完成删除历史数据操作"
  labels:
    app: delete-elastc-data
  name: delete-elastc-data
spec:
  concurrencyPolicy: Forbid
  failedJobsHistoryLimit: 5
  schedule: "0 1 * * *"
  jobTemplate:
    metadata:
      labels:
        app: delete-elastc-data
    spec:
      activeDeadlineSeconds: 360
      backoffLimit: 3
      completions: 1
      parallelism: 1
      template:
        metadata:
          annotations:
            kubesphere.io/imagepullsecrets: '{}'
        spec:
          containers:
          - command:
            - /bin/sh
            - -c
            - $getes;echo "开始删除史数据:";$deles/*$(date +%Y%m%d -d "30 days ago")*;echo "删除后数据为:";$getes
            env:
            - name: esauth
              value: "elastic:你的ES密码"
            - name: esurl
              value: "http://bk-elastic-elasticsearch-master.blueking:9200"
            - name: getes
              value: "curl -XGET -u $(esauth) $(esurl)/_cat/indices | sort -k 3"
            - name: deles
              value: "curl -XDELETE -u $(esauth) $(esurl)"

            image: centos:7.9.2009
            imagePullPolicy: IfNotPresent
            name: conjob
            resources: {}
            terminationMessagePath: /dev/termination-log
            terminationMessagePolicy: File
            volumeMounts:
            - mountPath: /etc/localtime
              name: host-time
              readOnly: true
          dnsPolicy: ClusterFirst
          restartPolicy: Never
          schedulerName: default-scheduler
          securityContext: {}
          serviceAccount: default
          serviceAccountName: default
          terminationGracePeriodSeconds: 30
          volumes:
          - hostPath:
              path: /etc/localtime
              type: ""
            name: host-time
  startingDeadlineSeconds: 30
  successfulJobsHistoryLimit: 5
  suspend: false
---

到了这里,关于自动清理 ES 历史数据的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 数据仓库保存历史数据方法之拉链表

    数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合,用于支持管理决策。 面向主题:传统的数据库是面向事务处理的,而数据仓库是面向某一领域而组织的数据集合,主题是指用户关心的某一联系紧密的集合。 集成:数据仓库中数据来源于各个离

    2024年03月13日
    浏览(36)
  • 业务测试——历史数据

    业务测试历史数据的必要性 1.保留上一版本的呈现效果以及数据正确性 2.做发版前后数据、样式一致性校验 3.后端处理历史数据,覆盖各类场景,保证客户的现有数据不会被影响,造成线上事务 4.为测试过程的覆盖度以及产品迭代的质量保驾护航 如何做历史数据(发版前截图

    2024年02月14日
    浏览(28)
  • 网站域名历史记录批量查询-老域名建站历史快照数据查询

      域名建站历史查询软件是一种用于查询一个域名被使用的网站的历史记录的工具。它可以提供许多有用的信息,包括该网站的创建和修改日期、使用的网站建设平台、使用的CMS系统、网站的历史页面内容和页面结构等。 域名建站历史查询软件的作用是帮助网站管理员、S

    2024年02月08日
    浏览(131)
  • TDengine(taos)数据库导出历史数据

    业务需求:导出某个站点的累计充电量,累计放电量,光伏总放电量,进线总功率的所有数据‘ 提示Database changed;即为使用成功; realId即为我想要导出的表,需要导出里面所有的字段; select * from yc_1680037147048042498_1011 /data.csv; 运行即可得到.csv文件; 注意导出路径里不能有

    2024年02月08日
    浏览(37)
  • 新浪股票接口获取历史数据

    这两天做了一个调用新浪股票接口获取实时以及历史股票数据的应用,因为新浪没有公开关于其接口的官方文档,所以通过各种百度差了很多关于新浪股票接口的使用,不过大家基本都是转载或者直接复制,对于实时数据的获取讲的很详细,但是缺少获取历史数据的方法。

    2024年02月10日
    浏览(35)
  • sql server删除历史数据

    datediff函数 : datepart的取值可以是year,quarter,Month,dayofyear,Day,Week,Hour,minute,second,millisecond startdate 是从 enddate 减去。如果 startdate 比 enddate 晚,返回负值。 删除2023年以前的数据 运行结果如下:

    2024年02月10日
    浏览(36)
  • 数据仓库发展历史

    数据仓库是企业中用于存储、整合和分析数据的关键组件。随着时间的推移,数据仓库经历了三代演化: 从需求驱动到平台化、从平台化到智能(AI)化 第一代数据仓库演化:需求驱动的分层架构 第一代数据仓库的核心思想是根据需求分析和业务模型构建分层架构,使用工

    2024年02月15日
    浏览(48)
  • TiDB(5):TiDB-读取历史数据

    接下来介绍 TiDB 如何读取历史版本数据,包括具体的操作流程以及历史数据的保存策略。 1 功能说明 TiDB 实现了通过标准 SQL 接口读取历史数据功能,无需特殊的 client 或者 driver。当数据被更新、删除后,依然可以通过 SQL 接口将更新/删除前的数据读取出来。 另外即使在更新

    2024年02月12日
    浏览(44)
  • 简单的用Python采集股票数据,保存表格后分析历史数据

    字节跳动如果上市,那么钟老板将成为我国第一个世界首富 趁着现在还没上市,咱们提前学习一下用Python分析股票历史数据,抱住粗大腿坐等起飞~ 好了话不多说,我们直接开始正文 环境使用 Python 3.10 解释器 Pycharm 编辑器 模块使用 requests — 数据请求模块 csv - 保存csv表格

    2024年02月05日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包