字节跳动开源 Kelemetry:面向 Kubernetes 控制面的全局追踪系统

这篇具有很好参考价值的文章主要介绍了字节跳动开源 Kelemetry:面向 Kubernetes 控制面的全局追踪系统。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

动手点关注

字节跳动开源 Kelemetry:面向 Kubernetes 控制面的全局追踪系统,开源,kubernetes,容器,云原生

干货不迷路

Kelemetry是字节跳动开发的用于Kubernetes控制平面的追踪系统,它从全局视角串联起多个 Kubernetes 组件的行为,追踪单个 Kubernetes 对象的完整生命周期以及不同对象之间的相互影响。通过可视化 K8s 系统内的事件链路,它使得 Kubernetes 系统更容易观测、更容易理解、更容易 Debug。

字节跳动开源 Kelemetry:面向 Kubernetes 控制面的全局追踪系统,开源,kubernetes,容器,云原生

背景

在传统的分布式追踪中,“追踪”通常对应于用户请求期间的内部调用。特别是,当用户请求到达时,追踪会从根跨度开始,然后每个内部RPC调用会启动一个新的子跨度。由于父跨度的持续时间通常是其子跨度的超集,追踪可以直观地以树形或火焰图的形式观察,其中层次结构表示组件之间的依赖关系。

与传统的RPC系统相反,Kubernetes API是异步和声明式的。为了执行操作,组件会更新apiserver上对象的规范(期望状态),然后其他组件会不断尝试自我纠正以达到期望的状态。例如,当我们将ReplicaSet从3个副本扩展到5个副本时,我们会将spec.replicas字段更新为5,rs controller会观察到此更改,并不断创建新的pod对象,直到总数达到5个。当kubelet观察到其管理的节点创建了一个pod时,它会在其节点上生成与pod中的规范匹配的容器。

在此过程中,我们从未直接调用过rs controller,rs controller也从未直接调用过kubelet。这意味着我们无法观察到组件之间的直接因果关系。如果在过程中删除了原始的3个pod中的一个,副本集控制器将与两个新的pod一起创建一个不同的pod,我们无法将此创建与ReplicaSet的扩展或pod的删除关联起来。因此,由于“追踪”或“跨度”的定义模糊不清,传统的基于跨度的分布式追踪模型在Kubernetes中几乎不适用。

过去,各个组件一直在实现自己的内部追踪,通常每个“reconcile”对应一个追踪(例如,kubelet追踪只追踪处理单个pod创建/更新的同步操作)。然而,没有单一的追踪能够解释整个流程,这导致了可观察性的孤立岛,因为只有观察多个reconcile才能理解许多面向用户的行为;例如,扩展ReplicaSet的过程只能通过观察副本集控制器处理ReplicaSet更新或pod就绪更新的多个reconcile来推断。

为解决可观察性数据孤岛的问题,Kelemetry以组件无关、非侵入性的方式,收集并连接来自不同组件的信号,并以追踪的形式展示相关数据。

设计

将对象作为跨度

为了连接不同组件的可观察性数据,Kelemetry采用了一种不同的方法,受到kspan项目的启发,与将单个操作作为根跨度的尝试不同,这里为对象本身创建一个跨度,而每个在对象上发生的事件都是一个子跨度。此外,各个对象通过它们的拥有关系连接在一起,使得子对象的跨度成为父对象的子跨度。因此,我们得到了两个维度:树形层次结构表示对象层次结构和事件范围,而时间线表示事件顺序,通常与因果关系一致。

例如,当我们创建一个单pod部署时,deployment controller、rs controller和kubelet之间的交互可以使用审计日志和事件的数据在单个追踪中显示:

字节跳动开源 Kelemetry:面向 Kubernetes 控制面的全局追踪系统,开源,kubernetes,容器,云原生

追踪通常用于追踪持续几秒钟的短暂请求,所以追踪存储实现可能不支持具有长生命周期或包含太多跨度的追踪;包含过多跨度的追踪可能导致某些存储后端的性能问题。因此,我们通过将每个事件分到其所属的半小时时间段中,将每个追踪的持续时间限制为30分钟。例如,发生在12:56的事件将被分组到12:30-13:00的对象跨度中。

我们使用分布式KV存储来存储(集群、资源类型、命名空间、名称、字段、半小时时间戳)到相应对象创建的追踪/跨度ID的映射,以确保每个对象只创建一个追踪。

审计日志收集

Kelemetry的主要数据源之一是apiserver的审计日志。审计日志提供了关于每个控制器操作的丰富信息,包括发起操作的客户端、涉及的对象、从接收请求到完成的准确持续时间等。在Kubernetes架构中,每个对象的更改会触发其相关的控制器进行协调,并导致后续对象的更改,因此观察与对象更改相关的审计日志有助于理解一系列事件中控制器之间的交互。

Kubernetes apiserver的审计日志以两种不同的方式暴露:日志文件和webhook。一些云提供商实现了自己的审计日志收集方式,而在社区中配置审计日志收集的与厂商无关的方法进展甚微。为了简化自助提供的集群的部署过程,Kelemetry提供了一个审计webhook,用于接收原生的审计信息,也暴露了插件API以实现从特定厂商的消息队列中消费审计日志。

Event 收集

当Kubernetes控制器处理对象时,它们会发出与对象关联的“event”。当用户运行kubectl describe命令时,这些event会显示出来,通常提供了控制器处理过程的更友好的描述。例如,当调度器无法调度一个pod时,它会发出一个FailToSchedulePod事件,其中包含详细的消息:

0/4022 nodes are available to run pod xxxxx: 1072 Insufficient memory, 1819 Insufficient cpu, 1930 node(s) didn't match node selector, 71 node(s) had taint {xxxxx}, that the pod didn't tolerate.

由于event针对用于kubectl describe命令优化,它们并不保留每个原始事件,而是存储了最后一次记录事件的时间戳和次数。另一方面,Kelemetry使用Kubernetes中的对象列表观察API检索事件,而该API仅公开event对象的最新版本。为了避免重复事件,Kelemetry使用了几种启发式方法来“猜测”是否应将event报告为一个跨度:

  • 持久化处理的最后一个event的时间戳,并在重启后忽略该时间戳之前的事件。虽然事件的接收顺序不一定有保证(由于客户端时钟偏差、控制器 — apiserver — etcd往返的不一致延迟等原因),但这种延迟相对较小,可以消除由于控制器重启导致的大多数重复。

  • 验证event的resourceVersion是否发生了变化,避免由于重列导致的重复event。

将对象状态与审计日志关联

在研究审计日志进行故障排除时,我们最想知道的是“此请求改变了什么”,而不是“谁发起了此请求”,尤其是当各个组件的语义不清楚时。Kelemetry运行一个控制器来监视对象的创建、更新和删除事件,并在接收到审计事件时将其与审计跨度关联起来。当Kubernetes对象被更新时,它的resourceVersion字段会更新为一个新的唯一值。这个值可以用来关联更新对应的审计日志。Kelemetry把对象每个resourceVersion的diff和快照缓存在分布式KV存储中,以便稍后从审计消费者中链接,从而使每个审计日志跨度包含控制器更改的字段。

追踪resourceVersion还有助于识别控制器之间的409冲突。当客户端传递UPDATE请求的resourceVersion过旧,且其他请求是将resourceVersion更改时,就会发生冲突请求。Kelemetry能够将具有相同旧资源版本的多个审计日志组合在一起,以显示与其后续冲突相关的审计请求作为相关的子跨度。

为了确保无缝可用性,该控制器使用多主选举机制,允许控制器的多个副本同时监视同一集群,以确保在控制器重新启动时不会丢失任何事件。

字节跳动开源 Kelemetry:面向 Kubernetes 控制面的全局追踪系统,开源,kubernetes,容器,云原生

前端追踪转换

在传统的追踪中,跨度总是在同一个进程(通常是同一个函数)中开始和结束。因此,OTLP 等追踪协议不支持在跨度完成后对其进行修改。不幸的是,Kelemetry 不是这种情况,因为对象不是运行中的函数,并且没有专门用于启动或停止其跨度的进程。相反,Kelemetry 在创建后立即确定对象跨度,并将其他数据写入子跨度, 是以每个审计日志和事件都是一个子跨度而不是对象跨度上的日志。

然而,由于审计日志的结束时间/持续时间通常没有什么价值,因此追踪视图非常丑陋且空间效率低下:

字节跳动开源 Kelemetry:面向 Kubernetes 控制面的全局追踪系统,开源,kubernetes,容器,云原生

为了提高用户体验,Kelemetry 拦截在 Jaeger 查询前端和存储后端之间,将存储后端结果返回给查询前端之前,对存储后端结果执行自定义转换流水线。

Kelemetry 目前支持 4 种转换流水线:

  • tree:服务名/操作名等字段名简化后的原始trace树

  • timeline:修剪所有嵌套的伪跨度,将所有事件跨度放在根跨度下,有效地提供审计日志

  • tracing:非对象跨度被展平为相关对象的跨度日志

字节跳动开源 Kelemetry:面向 Kubernetes 控制面的全局追踪系统,开源,kubernetes,容器,云原生

  • 分组:在追踪管道输出之上,为每个数据源(审计/事件)创建一个新的伪跨度。当多个组件将它们的跨度发送到 Kelemetry 时,组件所有者可以专注于自己组件的日志并轻松地交叉检查其他组件的日志。

用户可以在追踪搜索时通过设置“service name”来选择转换流水线。中间存储插件为每个追踪搜索结果生成一个新的“CacheID”,并将其与实际 TraceID 和转换管道一起存储到缓存 KV 中。当用户查看时,他们传递CacheID,CacheID 由中间存储插件转换为实际TraceID,并执行与 CacheID 关联的转换管道。

字节跳动开源 Kelemetry:面向 Kubernetes 控制面的全局追踪系统,开源,kubernetes,容器,云原生

突破时长限制

如上所述,追踪不能无限增长,因为它可能会导致某些存储后端出现问题。相反,我们每 30 分钟开始一个新的追踪。这会导致用户体验混乱,因为在 12:28 开始滚动的部署追踪会在 12:30 突然终止,用户必须在 12:30 手动跳转到下一个追踪才能继续查看追踪 . 为了避免这种认知开销,Kelemetry 存储插件在搜索追踪时识别具有相同对象标签的跨度,并将它们与相同的缓存 ID 以及用户指定的搜索时间范围一起存储。在渲染 span 时,所有相关的轨迹都合并在一起,具有相同对象标签的对象 span 被删除重复,它们的子对象被合并。轨迹搜索时间范围成为轨迹的剪切范围,将对象组的完整故事显示为单个轨迹。

多集群支持

可以部署 Kelemetry 来监视来自多个集群的事件。在字节跳动,Kelemetry 每天创建 80 亿个跨度(不包括伪跨度)(使用多 raft 缓存后端而不是 etcd)。对象可以链接到来自不同集群的父对象,以启用对跨集群组件的追踪。

未来增强

采用自定义追踪源

为了真正连接K8S生态系统中的所有观测点,审计和事件并不足够全面。Kelemetry将从现有组件收集追踪,并将其集成到Kelemetry追踪系统中,以提供对整个系统的统一和专业化视图。

批量分析

通过Kelemetry的聚合追踪,回答诸如“从部署升级到首次拉取镜像的进展需要多长时间”等问题变得更加容易,但我们仍然缺乏在大规模上聚合这些指标以提供整体性能洞察的能力。通过每隔半小时分析Kelemetry的追踪输出,我们可以识别一系列跨度中的模式,并将其关联为不同的场景。

使用案例

1. replicaset controller 異常

用户报告,一个 deployment 不断创建新的 Pod。我们可以通过deployment名称快速查找其 Kelemetry 追踪,分析replicaset与其创建的 Pod 之间的关系。

字节跳动开源 Kelemetry:面向 Kubernetes 控制面的全局追踪系统,开源,kubernetes,容器,云原生

从追踪可见,几个关键点:

  • Replicaset-controller 发出 SuccessfulCreate 事件,表示 Pod 创建请求成功返回,并在replicaset reconcile中得到了replicaset controller的确认。

  • 没有replicaset状态更新事件,这意味着replicaset controller中的 Pod reconcile未能更新replicaset状态或未观察到这些 Pod。

此外,查看其中一个 Pod 的追踪:

字节跳动开源 Kelemetry:面向 Kubernetes 控制面的全局追踪系统,开源,kubernetes,容器,云原生

  • Replicaset controller 在 Pod 创建后再也没有与该 Pod 进行交互,甚至没有失败的更新请求。

因此,我们可以得出结论,replicaset controller中的 Pod 缓存很可能与 apiserver 上的实际 Pod 存储不一致,我们应该考虑 pod informer 的性能或一致性问题。如果没有 Kelemetry,定位此问题将涉及查看多个 apiserver 实例的各个 Pod 的审计日志。

2.浮动的 minReadySeconds

用户发现deployment的滚动更新非常缓慢,从14:00到18:00花费了几个小时。如不使用Kelemetry,通过使用 kubectl 查找对象,发现 minReadySeconds 字段设置为 10,所以长时间的滚动更新时间是不符合预期的。kube-controller-manager 的日志显示,在一个小时后 Pod 才变为 Ready 状态

字节跳动开源 Kelemetry:面向 Kubernetes 控制面的全局追踪系统,开源,kubernetes,容器,云原生

进一步查看 kube-controller-manager 的日志后发现,在某个时刻 minReadySeconds 的值为 3600。

字节跳动开源 Kelemetry:面向 Kubernetes 控制面的全局追踪系统,开源,kubernetes,容器,云原生

使用 Kelemetry 进行调试,我们可以直接通过deployment名称查找追踪,并发现federation组件增加了 minReadySeconds 的值。

字节跳动开源 Kelemetry:面向 Kubernetes 控制面的全局追踪系统,开源,kubernetes,容器,云原生

后来,deployment controller将该值恢复为 10。

字节跳动开源 Kelemetry:面向 Kubernetes 控制面的全局追踪系统,开源,kubernetes,容器,云原生

因此,我们可以得出结论,问题是由用户在滚动更新过程中临时注入的较大 minReadySeconds 值引起的。通过检视对象 diff ,可以轻松识别由非预期中间状态引起的问题。

尝试Kelemetry

Kelemetry已在GitHub上开源:https://github.com/kubewharf/kelemetry

按照 docs/QUICK_START.md 快速入门指南试试Kelemetry如何与您的组件进行交互,或者如果您不想设置一个集群,可以查看从GitHub CI流水线构建的在线预览:https://kubewharf.io/kelemetry/trace-deployment/

加入我们

火山引擎云原生团队火山引擎云原生团队主要负责火山引擎公有云及私有化场景中 PaaS 类产品体系的构建,结合字节跳动多年的云原生技术栈经验和最佳实践沉淀,帮助企业加速数字化转型和创新。产品包括容器服务、镜像仓库、分布式云原生平台、函数服务、服务网格、持续交付、可观测服务等。文章来源地址https://www.toymoban.com/news/detail-604999.html

到了这里,关于字节跳动开源 Kelemetry:面向 Kubernetes 控制面的全局追踪系统的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 字节跳动最新开源!超实用的UI轮子库,我只是个轮子搬运工

    宫格类型:使用 QMUIBottomSheet.BottomGridSheetBuilder 生成。 QMUICommonListItemView 用作通用列表 QMUIGroupListView 里的 Item,也可单独使用。支持以下样式: 展示一行文字。 在右侧或下方增加一行说明文字。 在 item 右侧显示一个开关或箭头或自定义的View QMUIDialog 提供了一系列常用的对话

    2024年04月12日
    浏览(35)
  • GitHub 2800颗星,支持GPT/Transformer,字节跳动这个开源项目是怎么来的?

    AI 绘画、机器翻译、多轮对话……对于各类 AI 相关的功能来说,总有一个痛点,困扰着所有训模型的算法工程师们: 想要效果更好,那么 AI 模型一般都很大,耗费的算力更多不说,运行起来还更费时间; 如果希望模型小、运行快,那么效果通常不如前者好。 这就像天平的

    2024年02月09日
    浏览(63)
  • Python 能写游戏吗?有没有什么开源项目?,字节跳动Python金三银四解析

    代码长度:250 行哥评语:最快教会女朋友的互动游戏 4.连连看 使用模块:pygame 代码长度:351 行哥评语:网络版的连连看可以用python脚本一秒完成 5.雷电 使用模块:pygame 代码长度:490 行哥评语:在物质匮乏的年代,这个行哥真玩过通 6.俄罗斯方块 使用模块:pygame 代码长度

    2024年04月14日
    浏览(43)
  • 字节跳动开源!超好用的视频抠图工具;GitHub开源项目维护协作指南;自动化数据清洗工具包;强化学习入门教程;前沿论文 | ShowMeAI资讯日报

    👀 日报合辑 | 📆 电子月刊 | 🔔 公众号下载资料 | 🍩 @韩信子 https://github.com/HelixNGC7293/DeforumStableDiffusionLocal https://space.bilibili.com/176003 文本提示作画工具。本代码库实现是本地版本的Deforum Stable Diffusion V0.4,支持txt设置文件输入和动画功能! https://github.com/PeterL1n/RobustVideoMat

    2023年04月08日
    浏览(73)
  • 字节跳动高频题目(1)

     3,1,42,200,15 121,128,49,25,88 5,146,70,2,4 21,33,55,27,560 11,20,31,53,236 300,26,215,279,438 135,148,9,169,76 22,101,14,54,56 72,206,152,80,39 46,62,104,122,179 3. Longest Substring Without Repeating Characters Medium Given a string  s , find the length of the  longest   s

    2024年04月28日
    浏览(33)
  • 字节跳动春招——特征提取

           小明是一名算法工程师,同时也是一名铲屎官。某天,他突发奇想,想从猫咪的视频里挖掘一些猫咪的运动信息。为了提取运动信息,他需要从视频的每一帧提取“猫咪特征”。一个猫咪特征是一个两维的vectorx, y。如果x_1=x_2 and y_1=y_2,那么这俩是同一个特征。    

    2024年02月07日
    浏览(41)
  • 字节跳动懂车帝一面

    自我介绍 3分钟 项目介绍 10分钟 完单率解释 广告计费和消耗 AB实验一般怎么做? 常见AB策略有哪些类型? 进行AB的策略是如何寻找? 决定要不要AB,通常是有新的能力/产品上线,预计对业务的核心关注指标有收益,需要用实验证明有收益可扩量 AB怎么分组,以及各自多少流

    2024年02月08日
    浏览(47)
  • 【2023】字节跳动 10 日心动计划——导航

    关于该专题的刷题已整理完毕,以下是内容导航。 第一关:单词替换、二叉树最大高度 第二关:最小体力消耗路径、缺失的第一个正数 第三关:最长有效括号、有序数组的平方 第四关:买卖股票的最佳时机、打家劫舍 II 第五关:字符串的排列、和为 K 的子数组 第六关:环

    2024年02月12日
    浏览(39)
  • 字节小程序踩坑-uni-app字节跳动小程序运行

    运行-运行到小程序模拟器-运行设置 运行-运行到小程序模拟器-字节跳动开发者工具  注意:抖音小程序不会像微信小程序自动打开!!!! 复制提示的地址 手动打开抖音小程序 点击导入项目,把地址复制到项目目录,点击导入即可 现在修改改HBuilderX的内容并运行,抖音小

    2024年02月14日
    浏览(43)
  • 【2023】字节跳动 10 日心动计划——第三关

    🔗 原题链接:32. 最长有效括号 类似于有效的括号,考虑用栈来解决。 具体来讲,我们始终保持栈底元素为当前已经遍历过的元素中「最后一个没有被匹配的右括号的下标」,这样的做法主要是考虑了边界条件的处理,栈里其他元素维护左括号的下标。 从左往右遍历整个字

    2024年02月13日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包