统信软件高级系统研发工程师:sysOM 在系统可靠性与安全上实践

这篇具有很好参考价值的文章主要介绍了统信软件高级系统研发工程师:sysOM 在系统可靠性与安全上实践。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、系统可靠性

sysom,大数据,阿里云,云计算

SRE是判断系统是否可靠、可用、有效重要标准,它包括:

  • 服务水平指标SLI:衡量服务使用情况量化指标。 比如IO读写速率、网络延迟。通常量化指标会转换为比率、平均值或百分比。
  • 服务水平目标SLO:一段时间、区间内的目标。 SLO的表达式通常为: SLI <= target 或 lower bound ≤ SLI ≤ upper bound。比如SLO可以为每个请求的平均延迟<=10ms。
  • 服务水平协议SLA:测量指标应与商业目标密切相关。

sysom,大数据,阿里云,云计算

稳定性99.99% 和 99.999% 在大部分情况下对用户体验差异不大,但每增加一个9,会显著增加成本。

基于时间的可用性=可用时间/总时间,但该指标通常意义不大。比如某订单系统在7天内有1小时不可用,其影响将是致命的。

基于成功率的可靠性=成功请求数/总请求数。选择何种可靠性级别主要依赖于用户风险承受能力,在创新和可靠性之间找到恰当的平衡。

sysom,大数据,阿里云,云计算

度量建模首先需要对指标进行标准化,比如聚合间隔、聚合区域、测量频率、包括哪些请求、如何获取数据以及数据访问延迟。进行度量选择时,应关注用户关心的内容,而不是能够衡量的内容。关注标准化指标时,需关注SLI分布而不是平均值。

sysom,大数据,阿里云,云计算

以上图为例,紫色区域整体较为稳定,状态较好;而蓝色区域毛刺突出,意味着系统在某一个时间点资源占用出现问题。

sysom,大数据,阿里云,云计算

在事件处理中,需要在事件发生前做异常演练、趋势分析、告警等,在事件发生后及时呼叫相关工程师做根因分析,现场补救,进行错误修复。然后将补救经验沉淀到知识库,后续用于自动化修复。

sysom,大数据,阿里云,云计算

不同业务会有不一样的监控指标,不同的商业目标也会有不同的SLO。

sysom,大数据,阿里云,云计算

上图展示了操作系统的可观测维度。

sysom,大数据,阿里云,云计算

这里我们列了一个矩阵,Y轴是可靠性通用度量方法,X轴是系统的可观维度,通过X和Y轴的组合,可以生成操作系统的SLI度量项。

sysom,大数据,阿里云,云计算

对于SRE而言,监控也十分重要。监控可以分析长期趋势,比如查看每日活动用户数据量、增加或减少、数据库使用了多大的磁盘、何时需要做扩容;也可以用来比较不同时间或实验组,比如不同组件查询速度比较、内存命中率比较、网站运行速度比较等。

监控可以大幅提升运维效率,不再需要运维人员、用户手动登录检查系统状态。另外,它也可以用于临时性的回顾分析,查看某个时间点具体发生了什么、哪些指标出现了异常。

sysom,大数据,阿里云,云计算

监控的基本原则是症状与原因,监控系统应该解决两个问题:什么坏了?为什么?

监控具有四个黄金信号,分别为延迟、流量、错误,饱和度。监控的工作内容应尽量简单,最常捕获真实事件的规则应尽可能简单、可预测和可靠,很少使用的数据收集、聚合和警报配置应被移除,已收集但未在任何仪表板中公开或被任何警报使用的信号应删除,方能达到高效分析问题的目的。

sysom,大数据,阿里云,云计算

系统自动化能够解决一致性、一个平台、更快的维修与行动以及计划的问题,后续,我们也期待能够通过AI OPS实现智能识别、智能介入以及智能修复。

sysom,大数据,阿里云,云计算

sysOM致力于打造一个集主机管理、配置部署、监控报警、异常诊断、安全审计等一系列功能的自动化运维平台。目前我们对资源管理做了纳管、监控,对配置管理做了安全、包管理、自动化,对权限管理做了权限细分、审计拦截,也实现了主动诊断。

sysom,大数据,阿里云,云计算

上图为SYSOM的主机管理图,可以做主机的批量导入、导出、删除,也可以根据集群做分门别类的梳理,支持在线终端,为运维人员带来了极大的方便,无需额外安装专门的客户端软件,只需一台电脑,登录SYSOM服务即可直接访问外部终端,达到运维目的。

sysom,大数据,阿里云,云计算

上图为SYSOM 诊断中心,负责检查调度、内存、IO网络、补丁 CPU 等,并针对问题进行告警。

sysom,大数据,阿里云,云计算

sysom,大数据,阿里云,云计算

上图为网络诊断图。

二、系统安全性

sysom,大数据,阿里云,云计算

系统安全性包括静态应用程序安全检查、动态应用程序安全检查以及软件生命周期保护。静态应用程序安全检查一般为在开发阶段做源码扫描勘测,判断哪些编码可能会出现漏洞;动态应用程序一般对正在运行的二进制开启端口渗透,查看是否存在漏洞。

sysom,大数据,阿里云,云计算

软件生命周期维护分为三个部分:

  • 基线:包含软件版本和配置文件。告知用户安全的软件版本和配置文件,即使出现高危漏洞也不会产生太大影响。
  • 漏洞库:存储软件出现的漏洞以及出现漏洞的版本。
  • 修复:对软件包进行升级或补丁。

sysom,大数据,阿里云,云计算

上图为SYSOM 安全中心,能够直观地为用户展示需要修复的漏洞数量、高危漏洞数量、修复漏洞影响的主机数量、今天修复的数量、累计修复的数量等。安全中心既能支持多个漏洞批量修复,也支持多个主机漏洞批量修复,可以一次性将所有主机的所有漏洞进行修复。

sysom,大数据,阿里云,云计算

不同漏洞数据库包含的漏洞数据可能有缺失,SYSOM安全中心支持第三方数据库接入,只需配置名称、连接地址、请求方式等,即可将第三方漏洞数库数据导入到 SYSOM 安全中心,进行系统扫描。

sysom,大数据,阿里云,云计算

上图为安全扫描结果展示。

三、展望与挑战

sysom,大数据,阿里云,云计算

当前,系统稳定性存在若干痛点。

首先,事件现场的保留。故障事件发生之后,现场难以保留,分析时需要花费较大代价。因此,保留事件现场尤为重要。

其次,底躁问题。监控时,监控指标会对系统带来一些负载,做巡检和指标计算也会对系统带来负载,我们期望以尽可能低的底噪来达到更全面的监控,也是将来需要解决的问题。

最后,修复依据。做安全基线配置或问题修复时,大多依靠专家经验和厂商经验。但是每个厂商或每个专家各有自己的观点,我们需要将其形成一套标准化规范。

原文链接

本文为阿里云原创内容,未经允许不得转载。文章来源地址https://www.toymoban.com/news/detail-797222.html

到了这里,关于统信软件高级系统研发工程师:sysOM 在系统可靠性与安全上实践的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 一些研发工程师在Springboot注意点

    1. 正确设计代码目录结构 虽然您有很大的自由度,但有一些基本规则值得遵循来设计您的源代码结构。 避免使用默认包。确保所有内容(包括入口点)都在命名良好的包中,这样您就可以避免与组装和组件扫描相关的意外情况; 将 Application.java(应用程序的入口类)放在顶

    2024年02月08日
    浏览(46)
  • 研发工程师玩转Kubernetes——emptyDir

    kubernets可以通过emptyDir实现在 同一Pod的不同容器间 共享文件系统。 正如它的名字,当Pod被创建时,emptyDir卷会被创建,这个时候它是一个空的文件夹;当Pod被删除时,emptyDir卷也会被 永久 删除。 我们使用上面这段脚本,会检测/tempdir/lockfile文件是否存在。如果不存在则创建

    2024年02月14日
    浏览(45)
  • 研发工程师玩转Kubernetes——hostPath

    有别于《研发工程师玩转Kubernetes——使用emptyDir在同一Pod不同容器间共享数据》一文中介绍的emptyDir,hostPath可以在 同一个Node的不同Pod间共享 卷。 下面的清单文件利用了Pod亲和性,让Pod集中到一个Node上。 我们观察创建的两个Pod中文件的内容 hostpath-deployment-65cddc7df8-9qtlv wri

    2024年02月14日
    浏览(43)
  • 研发工程师玩转Kubernetes——定时任务

    定时任务是指可以制定周期的任务,比如每周二0点1分执行一次。在《研发工程师玩转Kubernetes——非定时任务》中,我们介绍了单次执行的任务。现在我们只要对其清单稍作修改,就可以实现定时任务。 和单次任务清单相比,主要的修改点是:新增了spec.schedule字段。它用于

    2024年02月07日
    浏览(44)
  • 研发工程师玩转Kubernetes——自动扩缩容

    在《研发工程师玩转Kubernetes——使用Deployment进行多副本维护》一文中,我们通过Deployment实现了多副本维护——即维持在一个确定数量的副本个数。而在现实场景中,我们往往需要根据服务的压力,采用水平(横向)扩容的方式——即增加多个副本,来分担压力。当服务压力

    2024年02月06日
    浏览(46)
  • 技术精英求职必备:大数据研发工程师简历模板

    原则 撰写针对大数据研发工程师职位的简历时,关键在于准确展现您在 大数据处理、分析和应用开发方面的综合技能、项目经验和技术成就 。简历应作为您展示跨多个技术栈的 编程能力、构建完整大数据解决方案和有效解决大数据技术问题 的能力的窗口。确保每一项经历

    2024年02月21日
    浏览(60)
  • 研发工程师玩转Kubernetes——启动、存活和就绪探针

    启动(Startup Probe)、存活(Liveness Probe)和就绪探针(Readiness Probe)有其不同的用途和优先级。 启动探针(Startup Probe)用于Pod内程序告诉kubernetes,其准备工作已经做好。这些准备工作主要是指业务运行前的前置条件,比如资源文件下载完毕,内置数据库文件下载完毕等。这步

    2024年02月13日
    浏览(36)
  • 《研发效能(DevOps)工程师》课程简介(二)丨IDCF

    为贯彻落实《关于深化人才发展体制机制改革的意见》,推动实施人才强国战略,促进专业技术人员提升职业素养、补充新知识新技能,实现人力资源深度开发,推动经济社会全面发展,根据《中华人民共和国劳动法》有关规定,工业和信息化部教育与考试中心联合有关部门

    2024年02月07日
    浏览(48)
  • 技术精英求职必备:AIGC(图像生成)研发工程师简历指南

    核心原则 撰写针对AIGC(图像生成)研发工程师职位的简历时,关键在于准确展现您在深度学习、计算机视觉和图像生成算法方面的综合技能、项目经验和技术成就。简历应作为您展示跨多个技术栈的编程能力、构建完整的图像生成解决方案和有效解决AIGC技术问题的能力的窗口

    2024年03月25日
    浏览(78)
  • 博冠光电8K事业部招聘研发工程师及产品经理

    一、高级结构工程师 工作职责:1、负责公司产品的机械结构设计、模具开发和量产导入;2、负责机械结构方向的技术预研,包括技术专题研究,技术难题攻关; 3、负责结构组的技术管理工作,包括带新人,材料选型,设计审核;4、领导安排的其他工作。任职要求:1.、本

    2024年02月12日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包