同事写了个惊天 bug,还不容易被发现。。

这篇具有很好参考价值的文章主要介绍了同事写了个惊天 bug,还不容易被发现。。。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

作者:树洞君
链接:https://juejin.cn/post/7064376361334358046

事故描述

从6点32分开始少量用户访问app时会出现首页访问异常,到7点20分首页服务大规模不可用,7点36分问题解决。

整体经过

6:58 发现报警,同时发现群里反馈首页出现网络繁忙,考虑到前几日晚上门店列表服务上线发布过,所以考虑回滚代码紧急处理问题。

7:07 开始先后联系XXX查看解决问题。

7:36 代码回滚完,服务恢复正常。

事故根本原因-事故代码模拟

public static void test() throws InterruptedException, ExecutionException {
    Executor executor = Executors.newFixedThreadPool(3);
    CompletionService<String> service = new ExecutorCompletionService<>(executor);
        service.submit(new Callable<String>() {
            @Override
            public String call() throws Exception {
                return "HelloWorld--" + Thread.currentThread().getName();
            }
        });
}

根源就在于ExecutorCompletionService结果没 调用take,poll方法。

正确的写法如下所示:

public static void test() throws InterruptedException, ExecutionException {
    Executor executor = Executors.newFixedThreadPool(3);
    CompletionService<String> service = new ExecutorCompletionService<>(executor);
    service.submit(new Callable<String>() {
        @Override
        public String call() throws Exception {
            return "HelloWorld--" + Thread.currentThread().getName();
        }
    });
    service.take().get();
}

一行代码引发的血案,而且不容易被发现,因为oom是一个内存缓慢增长的过程,稍微粗心大意就会忽略,如果是这个代码块的调用量少的话,很可能几天甚至几个月后暴雷。

操作人回滚or重启服务器确实是最快的方式,但是如果不是事后快速分析出oom的代码,而且不巧回滚的版本也是带oom代码的,就比较悲催了,如刚才所说,流量小了,回滚或者重启都可以释放内存;但是流量大的情况下,除非回滚到正常的版本,否则GG。

推荐一个开源免费的 Spring Boot 实战项目:https://github.com/javastacks/spring-boot-best-practice

探询问题的根源

为了更好的理解ExecutorCompletionService的 “套路” 我们用 ExecutorService来作为对比,可以让我们更好的清楚,什么场景下用ExecutorCompletionService。

先看ExecutorService代码(建议down下来跑一跑)

public static void test1() throws Exception{
    ExecutorService executorService = Executors.newCachedThreadPool();
    ArrayList<Future<String>> futureArrayList = new ArrayList<>();
    System.out.println("公司让你通知大家聚餐 你开车去接人");
    Future<String> future10 = executorService.submit(() -> {
        System.out.println("总裁:我在家上大号 我最近拉肚子比较慢 要蹲1个小时才能出来 你等会来接我吧");
        TimeUnit.SECONDS.sleep(10);
        System.out.println("总裁:1小时了 我上完大号了。你来接吧");
        return "总裁上完大号了";

    });
    futureArrayList.add(future10);
    Future<String> future3 = executorService.submit(() -> {
        System.out.println("研发:我在家上大号 我比较快 要蹲3分钟就可以出来 你等会来接我吧");
        TimeUnit.SECONDS.sleep(3);
        System.out.println("研发:3分钟 我上完大号了。你来接吧");
        return "研发上完大号了";
    });
    futureArrayList.add(future3);
    Future<String> future6 = executorService.submit(() -> {
        System.out.println("中层管理:我在家上大号  要蹲10分钟就可以出来 你等会来接我吧");
        TimeUnit.SECONDS.sleep(6);
        System.out.println("中层管理:10分钟 我上完大号了。你来接吧");
        return "中层管理上完大号了";
    });
    futureArrayList.add(future6);
    TimeUnit.SECONDS.sleep(1);
    System.out.println("都通知完了,等着接吧。");
    try {
        for (Future<String> future : futureArrayList) {
            String returnStr = future.get();
            System.out.println(returnStr + ",你去接他");
        }
        Thread.currentThread().join();
    } catch (Exception e) {
        e.printStackTrace();
    }
}

三个任务,每个任务执行时间分别是 10s、3s、6s 。通过JDK线程池的 submit 提交这三个 Callable类型的任务。

  • step1 主线程把三个任务提交到线程池里面去,把对应返回的 Future 放到 List 里面存起来,然后执行“都通知完了,等着接吧。”这行输出语句。
  • step2在循环里面执行 future.get() 操作,阻塞等待。 最后结果如下:

同事写了个惊天 bug,还不容易被发现。。

先通知到总裁,也是先接总裁 足足等了1个小时,接到总裁后再去接研发和中层管理,尽管他们早就完事儿了,也得等总裁上完厕所~~

耗时最久的-10s异步任务最先进入list执行,所以在循环过程中获取这个10s的任务结果的时候,get操作会一直阻塞,直到10s异步任务执行完毕。即使 3s、5s的任务早就执行完了,也得阻塞等待10s任务执行完。

看到这里 尤其是做网关业务的同学可能会产生共鸣,一般来说网关RPC会调用下游N多个接口,如下图

如果都按照ExecutorService这种方式,并且恰巧前几个任务调用的接口耗时比较久,同时阻塞等待,那就比较悲催了。所以ExecutorCompletionService应景而出。它作为任务线程的合理管控者,“任务规划师”的称号名副其实。

相同场景 ExecutorCompletionService代码

public static void test2() throws Exception {
    ExecutorService executorService = Executors.newCachedThreadPool();
    ExecutorCompletionService<String> completionService = new ExecutorCompletionService<>(executorService);
    System.out.println("公司让你通知大家聚餐 你开车去接人");
    completionService.submit(() -> {
        System.out.println("总裁:我在家上大号 我最近拉肚子比较慢 要蹲1个小时才能出来 你等会来接我吧");
        TimeUnit.SECONDS.sleep(10);
        System.out.println("总裁:1小时了 我上完大号了。你来接吧");
        return "总裁上完大号了";
    });
    completionService.submit(() -> {
        System.out.println("研发:我在家上大号 我比较快 要蹲3分钟就可以出来 你等会来接我吧");
        TimeUnit.SECONDS.sleep(3);
        System.out.println("研发:3分钟 我上完大号了。你来接吧");
        return "研发上完大号了";
    });
    completionService.submit(() -> {
        System.out.println("中层管理:我在家上大号  要蹲10分钟就可以出来 你等会来接我吧");
        TimeUnit.SECONDS.sleep(6);
        System.out.println("中层管理:10分钟 我上完大号了。你来接吧");
        return "中层管理上完大号了";
    });
    TimeUnit.SECONDS.sleep(1);
    System.out.println("都通知完了,等着接吧。");
    //提交了3个异步任务)
    for (int i = 0; i < 3; i++) {
        String returnStr = completionService.take().get();
        System.out.println(returnStr + ",你去接他");
    }
    Thread.currentThread().join();
}

跑完结果如下:

同事写了个惊天 bug,还不容易被发现。。

这次就相对高效了一些,虽然先通知的总裁,但是根据大家上大号的速度,谁先拉完先去接谁,不用等待上大号最久的总裁了(现实生活里 建议采用第一种 不等总裁的后果 emmm 哈哈哈)。

放在一起对比下输出结果:

同事写了个惊天 bug,还不容易被发现。。

两段代码的差异非常小 获取结果的时候ExecutorCompletionService 使用了

completionService.take().get();

为什么要用take() 然后再get()呢????我们看看源码

CompletionService接口 以及接口的实现类

1、ExecutorCompletionService是CompletionService接口的实现类 同事写了个惊天 bug,还不容易被发现。。

2、接着跟一下ExecutorCompletionService的构造方法,可以看到入参需要传一个线程池对象,默认使用的队列是 LinkedBlockingQueue,不过还有另外一个构造方法可以指定队列类型,如下两张图,两个构造方法。

默认LinkedBlockingQueue的构造方法 同事写了个惊天 bug,还不容易被发现。。

可选队列类型的构造方法 同事写了个惊天 bug,还不容易被发现。。

3、submit任务提交的两种方式,都是有返回值的,我们例子中用到的就是第一种Callable类型的方法。 同事写了个惊天 bug,还不容易被发现。。

4、对比ExecutorService 和 ExecutorCompletionService submit方法 可以看出区别 (1)ExecutorService

同事写了个惊天 bug,还不容易被发现。。

(2)ExecutorCompletionService

同事写了个惊天 bug,还不容易被发现。。

5、差异就在 QueueingFuture,这个到底作用是啥,我们继续跟进去看

  • QueueingFuture 继承自 FutureTask,而且红线部分标注的位置,重写了done()方法。
  • 把 task 放到 completionQueue 队列里面,当任务执行完成后,task就会被放到队列里面去了。
  • 此时此刻completionQueue队列里面的 task 都是已经 done()完成了的 task,而这个 task 就是我们拿到的一个个的future结果。
  • 如果调用 completionQueue 的 task 方法,会阻塞等待任务。等到的一定是完成了的 future,我们调用 .get()方法 就能立马获得结果。

同事写了个惊天 bug,还不容易被发现。。

看到这里 相信大家伙都应该多少明白点了

  • 我们在使用ExecutorService submit提交任务后需要关注每个任务返回的future,然而CompletionService 对这些 future 进行了追踪,并且重写了done方法,让你等的completionQueue 队列里面 一定是完成了的task。
  • 作为网关RPC层,我们不用因为某一个接口的响应慢拖累所有的请求,可以在处理最快响应的业务场景里使用CompletionService。

but 注意、注意、注意 也是本次事故的核心

当只有调用了ExecutorCompletionService下面的3个方法的任意一个时,阻塞队列中的task执行结果才会从队列中移除掉,释放堆内存,由于该业务不需要使用任务的返回值,则没进行调用take,poll方法。从而导致没有释放堆内存,堆内存会随着调用量的增加一直增长。

同事写了个惊天 bug,还不容易被发现。。

所以,业务场景中不需要使用任务返回值的 别没事儿使用CompletionService,假如使用了,记得一定要从阻塞队列中 移除掉task执行结果,避免OOM!

总结

知道事故的原因,我们来总结下方法论,毕竟孔子他老人家说过:自省吾身,常思己过,善修其身!

上线前:

  • 严格的代码review习惯,一定要交给back人去看,毕竟自己写的代码自己是看不出问题的,相信每个程序猿都有这个自信(这个后续事故里可能会反复提到!很重要)
  • 上线记录-备注好上一个可回滚的包版本(给自己留一个后路)
  • 上线前确认回滚后,业务是否可降级,如果不可降级,一定要严格拉长这次上线的监控周期 上线后:
  • 持续关注内存增长情况(这部分极容易被忽略,大家对内存的重视度不如cpu使用率)
  • 持续关注cpu使用率增长情况
  • gc情况、线程数是否增长、是否有频繁的fullgc等
  • 关注服务性能报警,tp99、999 、max是否出现明显的增高

近期热文推荐:

1.1,000+ 道 Java面试题及答案整理(2022最新版)

2.劲爆!Java 协程要来了。。。

3.Spring Boot 2.x 教程,太全了!

4.别再写满屏的爆爆爆炸类了,试试装饰器模式,这才是优雅的方式!!

5.《Java开发手册(嵩山版)》最新发布,速速下载!

觉得不错,别忘了随手点赞+转发哦!文章来源地址https://www.toymoban.com/news/detail-632276.html

到了这里,关于同事写了个惊天 bug,还不容易被发现。。的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 俩小伙一晚上写了个 AI 应用,月入两万??(文末附开发教程)

    开发出一款能够与 AI 对话生成和编辑思维导图的工具,听起来似乎只能是一群专业的 AI 背景团队花费大量的时间和精力训练模型,打磨应用才能完成的事情。 但是,两名大学生却在一夜之间完成了,就像炼金术士将庸俗的材料转化成黄金一样,他们将代码转化为了神奇的工

    2024年02月03日
    浏览(34)
  • 我忽然发现周围同事都在无效内卷

    想写这篇文章已经很久了,在三月份的时候就想写这篇文章了。 可三月份那时候需求比较多,每天下班时间基本都在九点多了,回到家就想躺着,压根不想写;四月份则是2022年度绩效评比+沟通,一月时间又没了;五一期间回家准备订婚的事宜了,也没什么时间。 五月四号那

    2024年02月03日
    浏览(22)
  • Python3,我只用一段代码,就写了个词云生成器,功能强大到怀疑人生。

    小鱼 :小屌丝,你在干啥呢? 小屌丝 :鱼哥,你看, 我的PPT写的 高大尚不。 小鱼 :这有啥高大尚的啊, 小屌丝 :你仔细看, 往下翻一页 小鱼 :额。你这那是PPT,就是浴皇大帝、昂科旗等车系的测评吗。 小屌丝 :别管内容了, 鱼哥,你就说,这个样式怎么样, 帅不帅

    2024年02月06日
    浏览(36)
  • ChatGPT自动写了个AI办公office word插件,低配copilot,程序员看了焦虑。

            最近公司文案同事提出一个需求,希望在文案编辑工作上使用AI工具,提高生产效率,当然也受ChatGPT这波潮流影响。ok,既然需求来了,作为技术部门那只能接下需求了。省略需求调研过程N个字...。总结起来:1、希望工具整合到Word中(文案编辑嘛);2、AI写作功能

    2024年02月06日
    浏览(31)
  • 遇到一个同事,喜欢查其他同事的BUG,然后截图发工作大群里,还喜欢甩锅,该怎么办?...

    职场上都有哪些奇葩同事? 一位网友吐槽: 遇到一个同事,喜欢查同级别同事的bug,截图发工作群,甚至发大群里,还喜欢甩锅,该怎么办? 职场工贼,人人喊打,网友们纷纷给出了自己的应对之策。 有人说,就在群里回一个大拇哥。 有人说,说明他工作不饱和,告诉领

    2024年02月05日
    浏览(42)
  • 测试大姐提了个bug,为什么你多了个options请求?

    刚准备下班呢,测试大姐又给我提个 bug ,你看我这就操作了一次, network 里咋有两个请求? 我心一惊,”不可能啊!我代码明明就调用一次后端接口,咋可能两个请求!“。打开她的截图一看:多个 options 请求。 我不慌不忙解释道:”这不用管,是浏览器默认发送的一个预

    2024年02月10日
    浏览(24)
  • 《发现的乐趣》作者费曼(读书笔记)

    目录 一、书简介 二、作者理查德•费曼 费曼式思维 教育与传承 三、个人思考 四、笔记 科学家眼中的花之美 关于偏科 父亲教育我的方式 知道一个概念和真正懂得这个概念有很大区别 我没有义务去成全别人对我的期望 诺贝尔奖——够格吗? 探究世界的游戏规则 最好的教

    2024年02月07日
    浏览(29)
  • 写了 7 年代码,第一次见这么狗血的小 Bug!

    刚刚修我们鱼聪明 AI 助手平台的一个 Bug,结局很狗血!赶紧给大家分享一下,顺便也分享下标准的排查 Bug 思路。 事情是这样的,有小伙伴在鱼聪明平台(https://www.yucongming.com)创建了一个 AI 助手,名称为【软件开发人员】。当我搜索 “软件开发” 时,能搜出这个模型:

    2024年02月07日
    浏览(26)
  • 我做了个GPT3键盘,用了两个月发现它有点傻

    自 ChatGPT 出世,各类文本类AI产品层出不穷。甚至接连几日,Producthunt 上新品过半都是AI相关。 这其中部分原因是 OpenAI 公司开放的 GPT3 1API 接口十分易用。只要一个简单的文本请求,就能将现有产品加入AI功能。例如,Notion、Canvas、Craft 等都推出了类似 AI 辅助写作功能。 目

    2024年02月10日
    浏览(25)
  • 你还在给Midjourney充值?还不来试试超赞的阿里免费 AI 绘画?刚弄了个炫酷的3D头像,支持图生图,赶紧燃烧起来吧,谁还没事充什么值 ?

    阿里巴巴的「D.Dedign推友AI绘画小工具」不仅免费,而且功能超级强大非常方便使用!它像是一个神奇的画笔盒,里面装满了各种绚丽多彩的创意工具。无论你是想要3D头像还是炫酷的场景效果,它都能帮你搞定! 而最近,「D.Dedign推友」又引进了一项新功能,叫做「AI反应堆

    2024年02月16日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包