Java服务刚启动时,一小波接口超时排查全过程

这篇具有很好参考价值的文章主要介绍了Java服务刚启动时,一小波接口超时排查全过程。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

原创:扣钉日记(微信公众号ID:codelogs),欢迎分享,非公众号转载保留此声明。

简介

我们组有一个流量较大的Java服务,每次发代码时,服务都会有一小波接口超时,之前简单分析过,发现这些超时的case仅发生在服务刚启动时,少量请求会耗时好几秒,但之后又马上恢复正常。

问题发生

如下,是我们服务的一次上线,可以看到,上线期间(21:10左右)会有一小波499超时。
Java服务刚启动时,一小波接口超时排查全过程

而从我们全链路日志平台查看这些超时的调用,会发现外部网络操作(如:rpc调用、查询数据库等)耗时不高,所以耗时来源于执行java代码而非外部调用。

但为啥就刚启动完成那会比较耗时,之后又正常了呢,有点经验的话,肯定会想到这里面估计发生了什么隐式操作,那Java代码执行时会有哪些隐式操作可能导致耗时高呢?
我想到了如下几种情况:

  1. 懒加载操作,如连接池初始化、缓存加载?

经过检查,发现这些都已在启动时加载,不会延迟到请求时。

  1. 发生了GC?

经过检查,启动时GC正常,耗时不高。

  1. JIT即时编译功能导致?

java代码默认是解释执行的,当某些代码被多次执行后,会被JIT编译成原生指令执行,执行性能相应提升,但我通过JVM参数-Xint关闭了JIT后,发现问题依然存在,故排除了此原因。

  1. 执行过程中有锁?

经过检查代码,未发现锁的存在。

  1. 操作系统相关隐式操作,上下文切换、缺页中断、文件io慢?

经初步检查,CPU、内存、磁盘使用率都正常,这部分深入排查比较费力,且有权限限制,暂先跳过。

那会是什么原因导致的?

问题排查

暂时没啥头绪,我打算先用arthas的profile命令,收集一些CPU火焰图看看。

由于超时仅发生在刚启动完成后的部分请求,之后又恢复正常,故我计划在启动完成后开始收集火焰图,每次收集10s的火焰图,收集3次,然后对比前后的火焰图,看看它们有什么不同,收集脚本如下:

function flamegraph_sample(){
    # 不断检测服务直到它启动完成
    while sleep 1; do curl -sS --connect-timeout 3 -m3 http://127.0.0.1:8080/health | grep ok && break; done
    pid=`pgrep -n java`
    for i in {1..3}; do
        java -jar arthas-boot.jar -c "profiler start --alluser" "$pid";
        sleep 10s;
        java -jar arthas-boot.jar -c "profiler stop --file /tmp/flamegraph_cpu_%t.html " "$pid";
    done
    java -jar arthas-boot.jar -c "stop" "$pid";
}

生成的前2个火焰图如下:
Java服务刚启动时,一小波接口超时排查全过程
Java服务刚启动时,一小波接口超时排查全过程
乍一看,火焰图中没有明显的瓶颈点,但经过仔细查看,在第一张火焰图中搜索ClassLoader,可以搜到不少类加载操作(红色部分),而第二张则基本没有!

难道是类加载导致的?目前我有80%信心怀疑就是它导致的,但类加载有那么慢?

为此,我计划使用profile命令的-e wall模式收集刚启动完成时的调用栈,并使用jfr格式保存数据,其中wall模式适合诊断高耗时问题,而jfr格式数据会保存时间戳与线程名称,适合case by case分析,命令如下:

profiler start -e wall --file /tmp/result.jfr

收集到jfr文件后,使用jmc工具打开,然后我在日志平台上找到一个慢调用日志,它显示http-nio-8080-exec-28线程在21:14:1021:14:18时间段是一次耗时近8s的慢调用,所以我用此条件在jmc里过滤出此case的调用栈数据,如下:
Java服务刚启动时,一小波接口超时排查全过程
可以发现,确实绝大多数耗时发生在类加载上,类加载之所以慢是因为加载类有锁竞争,而我们接口由于查表较多,确实会触发非常多类的加载,所以问题比较明显。

问题解决

知道原因后,解决起来就简单了,把类提前加载到JVM即可,为了简单,我直接使用了spring中的工具方法,如下:

private static final String[] CLASS_PREFIX_ARR = new String[] {
                "org.apache", "com.thoughtworks", "io.netty", "com.google", "io.grpc",
                "com.alibaba", "org.springframework", "cn.hutool", "com.fasterxml", "org.hibernate", 
                "io.opencensus", "org.redisson", "io.micrometer", "io.prometheus",
        };

PathMatchingResourcePatternResolver resolver = new PathMatchingResourcePatternResolver();
for (String classPrefix : CLASS_PREFIX_ARR) {
    Resource[] resources;
    try {
        resources = resolver.getResources(
                "classpath*:" + StringUtils.replaceChars(classPrefix, '.', '/') + "/**/*.class");
    } catch (IOException e) {
        ExceptionUtils.rethrow(e);
        return;
    }
    for (Resource resource : resources) {
        String className = null;
        try (InputStream is = resource.getInputStream()) {
            ClassReader cr = new ClassReader(is);
            className = StringUtils.replaceChars(cr.getClassName(), '/', '.');
            Class<?> clz = Class.forName(className);
            log.info("preLoadClass success: " + className + ", classLoader: " + clz.getClassLoader());
        } catch (Throwable e) { 
            log.warn("preLoadClass failed: " + className);
        }
    }
}

类预加载上线后,后面又进行过多次代码发布,发布过程中几乎不会再产生超时情况,问题确认已解决。

总结

此次问题的排查过程,还是用到了不少排查技巧的,总结一下:文章来源地址https://www.toymoban.com/news/detail-597820.html

  1. 当看起来不应该慢的代码执行慢时,可以想想有哪些可能的隐式操作存在,此次case的隐式操作就是类加载。
  2. 当诊断问题没有头绪时,可考虑使用arthas的profile命令来绘制火焰图,看从火焰图中能不能找到线索,尽管不会总是有效。
  3. 当从CPU火焰图中看不出明显问题时,可通过对比问题前后的火焰图来找不同点。
  4. 理解profile的-e cpu(默认)与-e wall选项的差异,一般-e cpu诊断高cpu问题,而-e wall诊断高耗时问题,但如果是偶尔慢一下,需要case by case分析,可考虑使用jfr格式保存诊断数据。

到了这里,关于Java服务刚启动时,一小波接口超时排查全过程的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 研一小白记录第一次在实验室服务器上跑深度学习的代码全过程(实验室服务器上跑代码详细全过程哦)

    你在服务器上跑过代码吗?哇~你跑过!是啥样的...每回见别人跑都会问并且羡慕会在大服务器上跑代码的哈哈哈在研究生刚开学前还甚至不知道什么是服务器,更是无法想象在除了自己能看得见摸得着的电脑屏幕之外跑代码的样子。直到有天开会自己坐在了一个大大的“黑箱

    2024年02月02日
    浏览(42)
  • 记录一次云原生线上服务数据迁移全过程

    校园 e 站,一群大学生在毕业前夕,为打破信息差而开发的一个校园论坛。一个从零到一全靠一群大学生的满腔热忱而打造的一个前后端分离以小程序为最终展示载体的一个微服务架构体系的 App。并发量的初始定位为 w 级,使用到多级缓存、数据分库等等前沿技术,当然这也

    2024年02月04日
    浏览(44)
  • 记录Java读取hdfs上的文件全过程

    文章目录 前言 一、项目大体流程 二、详细步骤 1.在idea里面创建空项目(小白也能看懂) 2.导入所需的jar包 2.输入代码后就可以实现了 总结         跟着白哥学Java,今天就来分享一下Java如何上传文件到hdfs上面, 提示:以下是一点见解         我们想要上传到hdfs,首先就

    2024年02月10日
    浏览(44)
  • 关于建立一个Java项目全过程(专对于新手)

    JDK = JRE + 开发工具集(例如Javac编译工具等) JRE = JVM + Java SE标准类库 下载网址(Oracle公司官网):www.oracle.com 这里链接具体下载网址:https://www.oracle.com/java/technologies/downloads/ 复制链接打开后会出现以下内容 这里我们选择JDK17,因为这个版本的更稳定,更完善一些 然后点击链

    2024年02月07日
    浏览(40)
  • Mysql迁移到kingbase(人大金仓)全过程方案(java)

    按项目国产化需求,需要将MySQL数据库迁移成kingbase数据库,后端服务是java 现先用本地创建kingbase-win版服务器进行流程、代码测试 目录 前言: 流程: 一.从官网下载文件 1.下载安装包  2.下载需要的授权文件  3.下载数据库连接驱动文件​编辑  二.安装  ​编辑 三.数据库迁

    2024年02月04日
    浏览(45)
  • ArcGIS Pro创建、发布、调用GP服务全过程示例(等高线分析)

    在之前的文章介绍过使用ArcMap发布GP分析服务,由于ArcGIS后续不在更新ArcMap,改用ArcGIS Pro,本文对ArcGIS Pro发布GP分析服务进行说明。 本文以等高线分析为例,使用ArcGIS Pro软件,从GP分析服务的创建、发布、调用全过程进行演示。 使用ArcMap发布GP服务请跳转:ArcGIS Desktop(Arc

    2024年02月02日
    浏览(33)
  • 将python项目用docker 部署到服务器上的全过程

    由于笔记本算力有限,要将python项目部署到服务器上。 在查阅了大量资料后,踩了无数坑后,今天记录一下全过程,希望对大家有帮助。 需要部署的python项目 虚拟机/linus docker安装 服务器端口  docker官网 安装教程  docker安装 菜鸟教程 项目最终结构:   ​ docker_test ├──

    2024年02月11日
    浏览(43)
  • 【Java实现文件上传】java后端+vue前端实现文件上传全过程详解(附源码)

    【 写在前面 】其实这篇文章我早就想写了,只是一直被需求开发耽搁,这不晚上刚好下班后有点时间,记录一下。需求是excel表格的上传,这个是很多业务系统不可或缺的功能点,再此也希望您能够读完我这篇文章对文件上传不再困惑。(文件下载见另外一篇) 涉及知识点

    2024年02月06日
    浏览(40)
  • Mysql迁移到kingbase全过程调整方案解决(人大金仓)(java)

    按项目国产化需求,需要将MySQL数据库迁移成kingbase数据库,后端服务是java 现先用本地创建kingbase-win版服务器进行流程、代码测试 目录 前言: 流程: 一.从官网下载文件 1.下载安装包  2.下载需要的授权文件  3.下载数据库连接驱动文件​编辑  二.安装  ​编辑 三.数据库迁

    2024年02月16日
    浏览(32)
  • ArcGIS Desktop(ArcMap)创建、发布、调用GP服务全过程示例(等高线分析)

    本文以等高线分析为例,使用ArcMap软件,从GP分析服务的创建、发布、调用全过程进行演示。 使用ArcGIS Pro发布GP服务请跳转:ArcGIS Pro创建、发布、调用GP服务全过程示例(等高线分析) 本文示例使用软件: ArcGIS Desktop10.3.1 ArcGIS JS API4.16 注:阅读本文前需要对ArcGIS GP服务,模

    2024年02月08日
    浏览(31)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包