记一次 .NET 某仪器测量系统 CPU爆高分析

这篇具有很好参考价值的文章主要介绍了记一次 .NET 某仪器测量系统 CPU爆高分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一:背景

1. 讲故事

最近也挺奇怪,看到了两起 CPU 爆高的案例,且诱因也是一致的,觉得有一些代表性,合并分享出来帮助大家来避坑吧,闲话不多说,直接上 windbg 分析。

二:WinDbg 分析

1. CPU 真的爆高吗

这里要提醒一下,别人说爆高不一定真的就是爆高,我们一定要拿数据说话,可以用 !tp 观察下。


0:000> !tp
logStart: 132
logSize: 200
CPU utilization: 59 %
Worker Thread: Total: 6 Running: 6 Idle: 0 MaxLimit: 10 MinLimit: 4
Work Request in Queue: 0
--------------------------------------
Number of Timers: 3
--------------------------------------
Completion Port Thread:Total: 2 Free: 2 MaxFree: 8 CurrentLimit: 2 MaxLimit: 10 MinLimit: 4

虽然卦中的 CPU 不低但也不是我理想的阈值,不过分析也是可以分析的,知道了 CPU 的利用率,接下来我们看下这个 CPU 猛不猛,使用 !cpuid 看下核心数。


0:000> !cpuid
CP  F/M/S  Manufacturer     MHz
 0  6,167,1  <unavailable>    199
 1  6,167,1  <unavailable>    199
 2  6,167,1  <unavailable>    199
 3  6,167,1  <unavailable>    199

只有四个核心,看样子这 CPU 不咋地哈,接下来的问题是谁导致了 CPU 爆高呢?

2. 是谁导致的 CPU 爆高

如果你刚才仔细看 !tp 的输出,应该会发现这么一句话 Total: 6 Running: 6 ,这表示当前线程池中的所有工作线程火力全开,有了这个现象,思路就比较明朗了,为什么会火力全开,这些线程此时都在干什么? 我们使用 ~*e !clrstack 观察一下。


0:000> ~*e !clrstack
...
OS Thread Id: 0x1dd8 (58)
        Child SP               IP Call Site
...
00000065F623F360 00007ffc38383a06 xxx+c__DisplayClass18_0.b__0(System.Object)
00000065F623FA00 00007ffc385680e2 System.Threading.ThreadPoolWorkQueue.Dispatch() [/_/src/libraries/System.Private.CoreLib/src/System/Threading/ThreadPoolWorkQueue.cs @ 729]
00000065F623FA90 00007ffc9638e3ee System.Threading.PortableThreadPool+WorkerThread.WorkerThreadStart() [/_/src/libraries/System.Private.CoreLib/src/System/Threading/PortableThreadPool.WorkerThread.cs @ 63]
00000065F623FBA0 00007ffc96372eaf System.Threading.Thread.StartCallback() [/_/src/coreclr/System.Private.CoreLib/src/System/Threading/Thread.CoreCLR.cs @ 105]
00000065F623FE30 00007ffc9730af03 [DebuggerU2MCatchHandlerFrame: 00000065f623fe30] 
OS Thread Id: 0x15a8 (59)
        Child SP               IP Call Site
00000065F63BE6F8 00007ffca6905d14 [InlinedCallFrame: 00000065f63be6f8] Interop+Winsock.recv(System.Net.Sockets.SafeSocketHandle, Byte*, Int32, System.Net.Sockets.SocketFlags)
00000065F63BE6F8 00007ffc38521441 [InlinedCallFrame: 00000065f63be6f8] Interop+Winsock.recv(System.Net.Sockets.SafeSocketHandle, Byte*, Int32, System.Net.Sockets.SocketFlags)
00000065F63BE6C0 00007ffc38521441 ILStubClass.IL_STUB_PInvoke(System.Net.Sockets.SafeSocketHandle, Byte*, Int32, System.Net.Sockets.SocketFlags)
00000065F63BE790 00007ffc385679d1 System.Net.Sockets.Socket.Receive(Byte[], Int32, Int32, System.Net.Sockets.SocketFlags, System.Net.Sockets.SocketError ByRef) [/_/src/libraries/System.Net.Sockets/src/System/Net/Sockets/Socket.cs @ 1473]
...
00000065F63BF140 00007ffc3838ae0b xxx+c__DisplayClass18_0.b__0(System.Object)
00000065F63BF7E0 00007ffc385680e2 System.Threading.ThreadPoolWorkQueue.Dispatch() [/_/src/libraries/System.Private.CoreLib/src/System/Threading/ThreadPoolWorkQueue.cs @ 729]
00000065F63BF870 00007ffc9638e3ee System.Threading.PortableThreadPool+WorkerThread.WorkerThreadStart() [/_/src/libraries/System.Private.CoreLib/src/System/Threading/PortableThreadPool.WorkerThread.cs @ 63]
00000065F63BF980 00007ffc96372eaf System.Threading.Thread.StartCallback() [/_/src/coreclr/System.Private.CoreLib/src/System/Threading/Thread.CoreCLR.cs @ 105]
00000065F63BFC10 00007ffc9730af03 [DebuggerU2MCatchHandlerFrame: 00000065f63bfc10] 

通过仔细观察各个线程的线程栈,发现最多的是 xxx+c__DisplayClass18_0.b__0 方法,从底层的 PortableThreadPool 来看,这是 C# 自己封装的线程池,说明这是由 线程池工作线程创建的,再辅助一张截图:

记一次 .NET 某仪器测量系统 CPU爆高分析

接下来的方向是 xxx+c__DisplayClass18_0.b__0 为何方神圣,可能有些朋友对这种方法命名很奇怪,这里解释一下,一般都是 await, async 的底层弄出来的,由大量的状态机方法所致。

3. c__DisplayClass18_0 到底写了什么

知道了这个方法,接下来可以用 ILSPY 去观察下这段代码,截图如下:

记一次 .NET 某仪器测量系统 CPU爆高分析

上面这段代码不知道大家有没有看出什么问题? 至少我看到这样的代码我就知道 CPU 为什么会爆高了,两点原因。

  • 偷懒,无脑往线程池丢,导致线程增多
  • 线程中方法时间复杂度高。

关于时间复杂度高,在子函数很容易就能找到诸如此类代码,将一个 hash 用在了一个它最不擅长的地方,复杂度一下子就上来了。


public static xxx Getxxx(xxx conxx)
{
	xxx xxxInfo2 = conxxx;
	lock (xxx)
	{
		return hashxxxnfo.Where((xxxInfo x) => x.xxx == xxx.xxx && x.xxx == xxx.intPtr)?.FirstOrDefault();
	}
}

4. 其他dump呢

刚才我也说了,最近是连续看到了两个,另外一个也是很奇葩的,而且还更严重,使用 !tp 观察一下。


0:000> !tp
CPU utilization: 92%
Worker Thread: Total: 16 Running: 16 Idle: 0 MaxLimit: 32767 MinLimit: 16
Work Request in Queue: 17
    AsyncTimerCallbackCompletion TimerInfo@000000e644d32df0
    Unknown Function: 00007fff29dc17d0  Context: 000000e136337f58
    Unknown Function: 00007fff29dc17d0  Context: 000000e136344798
    Unknown Function: 00007fff29dc17d0  Context: 000000e1363479a8
    ...
    Unknown Function: 00007fff29dc17d0  Context: 000000e135730720
    Unknown Function: 00007fff29dc17d0  Context: 000000e13573ccd8
--------------------------------------
Number of Timers: 0
--------------------------------------
Completion Port Thread:Total: 1 Free: 1 MaxFree: 32 CurrentLimit: 1 MaxLimit: 1000 MinLimit: 16

从卦中看,cpu利用率更高,线程池队列还有任务堆积,用同样的方式也洞察出了它的问题代码,也是一个无脑丢。

记一次 .NET 某仪器测量系统 CPU爆高分析

5. 如何优化

要想把 CPU 弄下去,无非就是在 生产端消费端 进行双向打磨。

  1. 生产端

严格控制线程的个数,以排队的方式定时定量的处理,严禁无脑丢,因为运行的线程少了,cpu自然就下去了。

  1. 消费端

很多朋友写代码不注意时间复杂度,或者根本不关心,导致数据量稍微大一点,代码就接近死循环,真的是无语死了,所以尽量把代码性能优化再优化,提高单次处理速度,让 消费端 接待能力 大大超出 生产端。

三:总结

这两个 CPU 爆高事故还是非常经典的,根子上还是有不少初中级程序员具有 偷懒 + 无视算法 的思维,谨以这篇让后来的朋友少踩坑吧!文章来源地址https://www.toymoban.com/news/detail-712128.html

记一次 .NET 某仪器测量系统 CPU爆高分析

到了这里,关于记一次 .NET 某仪器测量系统 CPU爆高分析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 记一次 某智能制造MES系统CPU 爆高分析

    前段时间有位朋友找到我,说他 docker 中的web服务深夜cpu被打满,让我帮忙看一下,很多朋友问docker中怎么抓dump,我一般都推荐使用 procdump 这款自动化工具,谁用谁知道,有了 dump 之后,接下来就是分析了。 有很多朋友问 linux 上的dump可以用 windbg 分析吗?这里统一回复下,

    2024年02月04日
    浏览(81)
  • 记一次 .NET 某工厂无人车调度系统 线程爆高分析

    前些天有位朋友找到我,说他程序中的线程数爆高,让我帮忙看下怎么回事,这种线程数爆高的情况找问题相对比较容易,就让朋友丢一个dump给我,看看便知。 别人说的话不一定是真,得自己拿数据出来说话,可以用 !t 命令观察一下便知。 从卦中信息看确实有 4600+ 的线程

    2024年02月06日
    浏览(55)
  • 记一次 .NET某防伪验证系统 崩溃分析

    昨晚给训练营里面的一位朋友分析了一个程序崩溃的故障,因为看小伙子昨天在群里问了一天也没搞定,干脆自己亲自上阵吧,抓取的dump也是我极力推荐的用 procdump 注册 AEDebug 的方式,省去了很多沟通成本。 windbg有一个非常强大的点就是当你双击打开后,会自动帮你切换到

    2024年03月28日
    浏览(62)
  • 记一次 .NET 某企业内部系统 崩溃分析

    前些天有位朋友找到我,说他的程序跑着跑着就崩溃了,让我看下怎么回事,其实没怎么回事,抓它的 crash dump 就好,具体怎么抓也是被问到的一个高频问题,这里再补一下链接: [.NET程序崩溃了怎么抓 Dump ? 我总结了三种方案] https://www.cnblogs.com/huangxincheng/p/14811953.html ,采用

    2024年02月10日
    浏览(52)
  • 记一次 .NET 某券商论坛系统 卡死分析

    前几个月有位朋友找到我,说他们的的web程序没有响应了,而且监控发现线程数特别高,内存也特别大,让我帮忙看一下怎么回事,现在回过头来几经波折,回味价值太浓了。 这个程序内存高,线程高,无响应,尼玛是一个复合态问题,那怎么入手呢?按经验推测,大概率是

    2024年02月05日
    浏览(63)
  • 记一次 .NET 某工控视觉系统 卡死分析

    前段时间有位朋友找到我,说他们的工业视觉软件僵死了,让我帮忙看下到底是什么情况,哈哈,其实卡死的问题相对好定位,无非就是看主线程栈嘛,然后就是具体问题具体分析,当然难度大小就看运气了。 前几天看一篇文章说现在的 .NET程序员 不需要学习 WinDbg ,理由就

    2024年02月12日
    浏览(47)
  • 记一次 .NET 某电力系统 内存暴涨分析

    前些天有位朋友找到我,说他生产上的程序有内存暴涨情况,让我帮忙看下怎么回事,最简单粗暴的方法就是让朋友在内存暴涨的时候抓一个dump下来,看一看大概就知道咋回事了。 这个问题说的再多也不为过,一定要看清楚这个程序是如何个性化发展的,可以使用 !address

    2024年02月08日
    浏览(43)
  • 记一次 .NET某报关系统 非托管泄露分析

    前段时间有位朋友找到我,说他的程序内存会出现暴涨,让我看下是怎么事情?而且还告诉我是在 Linux 环境下,说实话在Linux上分析.NET程序难度会很大,难度大的原因在于Linux上的各种开源工具主要是针对 C/C++, 和 .NET 一毛钱关系都没有,说到底微软在 Linux 上的调试领域支持

    2024年02月14日
    浏览(48)
  • 记一次 .NET 某埋线管理系统 崩溃分析

    经常有朋友跟我反馈,说看你的文章就像看天书一样,有没有一些简单入手的dump 让我们先找找感觉,哈哈,今天就给大家带来一篇入门级的案例,这里的入门是从 WinDbg 的角度来阐述的,这个问题如果你通过 记日志,分析代码 的方式,可能真的无法解决,不信的话继续往下

    2024年02月11日
    浏览(53)
  • 记一次 .NET某列控连锁系统 崩溃分析

    过年喝了不少酒,脑子不灵光了,停了将近一个月没写博客,今天就当新年开工写一篇吧。 去年年初有位朋友找到我,说他们的系统会偶发性崩溃,在网上也发了不少帖子求助,没找到自己满意的答案,让我看看有没有什么线索,看样子这是一个牛皮藓的问题,既然对方有了

    2024年02月21日
    浏览(53)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包