线上问题整理

这篇具有很好参考价值的文章主要介绍了线上问题整理。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

JVM 案例

案例一:服务器内存不足,影响Java应用

问题: 收到报警,某Java应用集群中一台服务器可用内存不足,超过报警阈值。

线上问题整理,网站架构 & 性能调优,java,后端,面试,性能优化,系统架构,职场和发展,jvm

排查过程: 首先,通过Hickwall查看该应用各项指标,发现无论是请求数量、CPU使用率、还是JMX的各项指标均未发现异常。仅系统内存占用很高,但是从JMX指标中看,Java应用的Heap MemoryGC等都是正常的,在合理大小和范围内,未发现内存泄漏等问题。故怀疑不是Java应用本身的问题,而是系统上其他组件出了问题,但是从Hickwall等工具上又看不出其他组件的信息。然后,直接ssh登录到该服务器,由于是内存问题,故直接使用简单的top命令,根据内存占用排序后发现,是logagent进程占用了接近一半的系统内存。

由于账号权限限制,无法进一步处理,诱因找到后,随即反馈给网站运营中心的同事,帮忙临时将logagent进程杀死,系统恢复正常。后续经网站运营中心同事排查,发现是logagent内部bug,导致处理格式异常的日志文件时发生内存泄漏,后续打上补丁进行修复。

线上问题整理,网站架构 & 性能调优,java,后端,面试,性能优化,系统架构,职场和发展,jvm

问题原因及思考: 目前公司各项监控工具已经比较完善,开发人员应熟练掌握并了解其中各项指标的含义,能够在分析具体问题时灵活运用各个工具,快速定位解决问题。

同时本案例虽然不是业务系统的问题,但这一案例也提醒了开发人员:线上实际问题可能是各方各面的,除了具备Java技术栈的相关的排障技能外,同时也要有基本的Linux操作能力,在已有工具无法帮助解决问题时,多一种途径快速定位问题,毕竟运营中心的同事人力有限,可能无法及时提供支持。

扩展

Java Full GC频繁: 可通过Hickwall中的JMX Full gc time/count指标观察Full GC情况,正常情况下不应有Full GC出现,Full GC意味着 STWJVM会阻塞其他所有线程来进行垃圾回收,频繁的Full GC会严重影响应用的性能。如果出现Full GC通常意味着Java堆内存大小无法满足需求,如果不是代码缺陷导致(可通过以上OOMJVM Sampler工具相关方法排查)则需要增加堆内存大小。

大数据量处理

案例一:大循环引起的 cpu 负载过高的问题

问题: x应用在一次发布时,cpu出现负载过高,其负载率突破200%,并且响应时间也大幅度超时。

线上问题整理,网站架构 & 性能调优,java,后端,面试,性能优化,系统架构,职场和发展,jvm线上问题整理,网站架构 & 性能调优,java,后端,面试,性能优化,系统架构,职场和发展,jvm

代码:

List<CityDataModel> cities = cityDomainService.allCities();
for (CityDataModel city : cities) {
    if (city.getCityCode().equalsIgnoreCase(flight.getDepartCity())) {
        dCountry = city.getCountryCode();
    }
    if (city.getCityCode().equalsIgnoreCase(flight.getArriveCity())) {
        aCountry = city.getCountryCode();
    }
}

通过在测试环境尝试调用一次服务请求,发现其循环的数据是城市列表。该列表的长度达到12000,而且发现该循环本身被执行了11次,String::equalsIgnoreCase方法执行了18万次,也就是说这是一个典型的大循环的代码。 并且通过记录日志发现,在生产中该块代码平均每次请求都会调用24万次左右,这导致很多cpu资源都集中在该方法上,使得cpu load大幅度提高。

问题解决: 由于代码中的大循环非常耗费cpu资源,通过分析,这里的Strings::equalsIgnoreCase方法的主要作用在于遍历判断取数据。 根据这种查找数据的情况,优先选择使用HashMap替代,用空间换时间,经过修改后重新发布,其cpu利用率明显下降,恢复正常。

思考总结:
【1】使用循环时需要特别注意大循环,优先使用O(1)HashMap,大循环对于cpu性能的压榨在这个问题上表现地淋漓尽致。
【2】镜像机器由于是使用生产流量转发访问,所以镜像发布高度贴近实际生产发布。在每次发布前,先使用镜像机器预发布,可以尽可能地将潜在的问题暴露出来。另外性能实验室中提供了cpu热点、内存分配热点和锁竞争热点的Flamegraph,在预发布中遇到问题时也可以更加直观地帮忙解决问题,并且不会对实际生产机器造成影响。
【3】此次发布前,虽然在测试环境进行了压测,但是并没有复现出该问题,分析原因,其与特定的压测的请求相关。由于在压测时使用的请求没有经过某些代码分支,使得循环的次数相比较少,故而在测试环境压测时没有暴露该问题。
【4】以上总结,除了代码层面的使用注意外,可以进行测试环境多种请求压力测试,以及生产镜像机器预发布等手段,来检测和杜绝这种潜在的问题发生。

案例二:多层嵌套 map

问题: 某日某查询服务器开始不断拉出集群,造成线上订单下跌。

线上问题整理,网站架构 &amp; 性能调优,java,后端,面试,性能优化,系统架构,职场和发展,jvm

遇到问题需咨询解决。。。

缓存

案例一:篡改缓存

问题: 查询接口下发错误数据故障

故障描述: 包含故障开始时间,发现时间,控制措施,故障排除细节

Time Event
15:00 接到产品邮件告知下单调用查询接口的结果与前端的数据不一致,要求紧急对问题进行排查。
15:05 开始对问题进行排查,同时了解问题大概影响范围。
16:00 定位到是因为代码bug导致的接口在下发时,输出的结果不正确。3月1日接口由.net切换到了java版查询接口。
16:20 开始着手对bug进行修复,并进行紧急发布。
16:20 与产品沟通影响范围以及问题订单的处理办法。
16:30 确定影响的单量:10万
16:50 着手准备修复问题订单SQL
18:00 完成紧急修复的上线

故障分析:
【1】为什么接口会下发错误?
.Net接口转Java过程中引发的代码bug,修改了本地缓存对象。

【2】为什么这个错误在代码review中没有被发现?
代码review不充分。虽然接口的逻辑并不复杂,但是代码量较多(40个文件,2000 additions and 1000 deletions),在review过程中遗漏了该错误。

【3】为什么在测试过程中没有发现该bug?
测试不充分,同时这个bug的触发存在一定概率性,当多个订单引用同一个基础服务对象时,在对礼盒进行遍历计算时,最后一个订单的计算结果会覆盖前面所有引用了该基础服务对象的订单。如果测试时选择的订单没有触发该·bug·,·.Net·和·Java·版本的对比结果是一致的。

【4】为什么影响的单量达·10W·以上规模?
bug212日发布直到33日才发现,持续了22天。

【5】为什么从212日起该问题直到33日才发现?
目前对于这类问题缺乏有效的检测机制,只能被动的等待客户投诉发生后才会反馈到开发团队。

分析总结:
【1】通过以上故障示例,我们可以发现缓存被修改带来的影响通常具有以下特性:
■ 不容易发现,因为数据可能只在特定条件下被修改。
■ 影响面非常广,因为数据本身是被频繁使用才会被加入缓存。
■ 不确定性,因为数据被修改具有“随机性”,该特性导致影响范围难以确定,数据也难以清洗。
【2】缓存篡改通常如何发生:
■ 从缓冲获取一个对象(引用),后续过程中修改了该对象的内部成员。

public class CityCache {
    private static final CityCache INSTANCE = new CityCache();

    private final Map<String, City> cityMap = new HashMap<>();

    public static CityCache getInstance() {
        return INSTANCE;
    }

    private CityCache() {
        // 此处为了简便,没有写定时刷新
        loadDataFromDB();
    }

    public City getCityByCode(String cityCode) {
        return cityMap.get(cityCode);
    }

    private void loadDataFromDB() {
        // load cities from database and put them into cityMap
    }
}

@Data
public class City {
    public City() {
    }

    public City(String code, int id) {
        this.code = code;
        this.id = id;
    }

    private String code;
    private int id;
}

@Test
public void errorTest() {
    // 通过SHA获取到缓存实体,该实体的三字码与SHA相同
    City city1 = CityCache.getInstance().getCityByCode("SHA");
    assertTrue("SHA".equals(city1.getCode()));

    // 业务代码直接修改了city1的三字码(CityCache中的实体被修改)
    city1.setCode("BJS");
    // ...

    // 再次通过SHA获取到缓存实体,该实体的三字码与SHA不相同了(非期望值)
    City city2 = CityCache.getInstance().getCityByCode("SHA");
    assertFalse("SHA".equals(city2.getCode()));
}

@Test
public void correctTest() {
    // 通过SHA获取到缓存实体,该实体的三字码与SHA相同
    City city1 = CityCache.getInstance().getCityByCode("SHA");
    assertTrue("SHA".equals(city1.getCode()));

    // 业务代码不能直接修改缓存实体,正确做法是先Copy一个对象,修改Copy对象的属性,后续业务使用该Copy对象
    City cityCopy = new City(city1.getCode(), city1.getId());
    cityCopy.setCode("BJS");
    // ...

    // 通过SHA获取到缓存实体,该实体的三字码与SHA相同
    City city2 = CityCache.getInstance().getCityByCode("SHA");
    assertTrue("SHA".equals(city2.getCode()));
}
■  从缓冲获取一个集合(引用),后续过程中往该集合中添加/删除了元素。
public class CityCache {
    private static final CityCache INSTANCE = new CityCache();

    @Getter
    private final Map<String, City> cityMap = new HashMap<>();

    public static CityCache getInstance() {
        return INSTANCE;
    }

    private CityCache() {
        // // 此处为了简便,没有写定时刷新
        loadDataFromDB();
    }

    private void loadDataFromDB() {
        // load cities from database and put them into cityMap
    }
}

@Data
public class City {
    public City() {
    }

    public City(String code, int id) {
        this.code = code;
        this.id = id;
    }

    private String code;
    private int id;
}

@Test
public void errorTest() {
    Map<String, City> cityMap = CityCache.getInstance().getCityMap();
    // 通过SHA获取到缓存实体,该实体的三字码与SHA相同
    City city1 = cityMap.get("SHA");
    assertTrue("SHA".equals(city1.getCode()));

    // 业务代码直接修改缓存集合
    cityMap.put("SHA", new City("BJS", 2));
    // cityMap.remove("SHA");

    // 再次通过SHA获取到缓存实体,该实体的三字码与SHA不相同了(非期望值)
    City city2 = CityCache.getInstance().getCityMap().get("SHA");
    assertFalse("SHA".equals(city2.getCode()));
}
■  缓存实体被修改
public class CityCache {
    private static final CityCache INSTANCE = new CityCache();

    @Getter
    private final Map<String, City> cityMap = new HashMap<>();

    public static CityCache getInstance() {
        return INSTANCE;
    }

    private CityCache() {
        // // 此处为了简便,没有写定时刷新
        loadDataFromDB();
    }

    private void loadDataFromDB() {
        // load cities from database and put them into cityMap
    }
}

@Data
public class City {
    public City() {
    }

    public City(String code, int id) {
        this.code = code;
        this.id = id;
    }

    private String code;
    private int id;
}

@Test
public void errorTest() {
    Map<String, City> cityMap = CityCache.getInstance().getCityMap();
    // 通过SHA获取到缓存实体,该实体的三字码与SHA相同
    City city1 = cityMap.get("SHA");
    assertTrue("SHA".equals(city1.getCode()));

    // 运行期间非预期的修改了缓存集合中的对象
    cityMap.forEach((k, v) -> {
        if (!"SHA".equals(k)) {
            return;
        }

        // ...
        v.setCode("BJS");
    });

    // 再次通过SHA获取到缓存实体,该实体的三字码与SHA不相同了(非期望值)
    City city2 = CityCache.getInstance().getCityMap().get("SHA");
    assertFalse("SHA".equals(city2.getCode()));
}

【3】如何避免缓存篡改:
■ 在可能需要修改数据的场景,从缓存获取一个深拷贝对象/集合。
■ 将缓存对象设计为只读状态,确保一旦构建就不可再修改其内部数据。

多线程

"多线程"这个话题想必开发人员或多或少都会接触到。 使用多线程最主要的原因是提高系统的资源利用率。 但在使用的过程中可能会遇到各种各样的问题,"死循环"便是其中比较棘手的一类。 下文分析了多线程环境下的死循环场景,希望对大家有所帮助。

死循环危害

线上问题整理,网站架构 &amp; 性能调优,java,后端,面试,性能优化,系统架构,职场和发展,jvm

程序进入假死状态: 当某个请求导致死循环,该请求会在很大一段时间内,都无法获取接口的返回。

CPU 使用率飙升: 代码出现死循环后,由于没有休眠,一直不断抢占cpu资源,导致cpu长时间处于繁忙状态,必定会使cpu使用率飙升。

内存使用率飙升: 代码出现死循环时,循环体内有大量创建对象的逻辑,垃圾回收器无法及时回收,会导致内存使用率飙升。同时,如果垃圾回收器频繁回收对象,也会造成cpu使用率飙升。

StackOverflowError栈溢出: 在一些递归调用的场景,如果出现死循环,多次循环后,最终会报 StackOverflowError 栈溢出,程序直接挂掉。

案例一:多线程环境下的死循环案例

问题: 循环条件不正确
案例: 这里以二分查找为例

int search(List<Integer> nums, int target) {
    int l = 0, r = nums.size() - 1;
    while (l < r) {
        int mid = (l + r) / 2;
        if (nums.get(mid) > target)
            r = mid - 1;
        else
            // 可能出问题位置
            l = mid;
    }

    if (nums.get(l) == target)
        return l;
    else
        return -1;
}

首先,会不会产生死循环的关键是lr是否在每次循环后至少有一个的值发生了改变, 而while循环体中,若走入了else语句,l的值有可能不发生变化,就会导致死循环的产生。 可以对循环体做以下调整:

while (l < r) {
    int mid = (l + r) / 2;
    if (nums.get(mid) >= target)
        r = mid;
    else
        l = mid + 1;
}

案例二:flag 线程间不可见

有时候我们的代码需要一直做某件事情,直到某个条件达到,有个状态告诉它,要终止任务了,它就会自动退出。 这时候,很多人都会想到用while(flag)实现这个功能:

public class FlagTest {
    private boolean flag = true;

    public void setFlag(boolean flag) {
        this.flag = flag;
    }

    public void fun() {
        while (flag) {
        }
        System.out.println("done");
    }

    public static void main(String[] args) throws InterruptedException {
        final FlagTest flagTest = new FlagTest();
        new Thread(() -> flagTest.fun()).start();
        Thread.sleep(200);
        flagTest.setFlag(false);
    }
}

这段代码在子线程中执行无限循环,当主线程休眠200毫秒后,将flag变成false,这时子线程就会自动退出了。想法是好的,但是实际上这段代码进入了死循环,不会因为flag变成false而自动退出。 为什么会这样? 线程间flag是不可见的,这时如果flag加上了volatile关键字,变成:

private volatile boolean flag = true;
会强制把共享内存中的值刷新到主内存中,让多个线程间可见,程序可以正常退出。

案例三:HashMap JDK7/8 死循环

问题: JDK7 rehash(扩容)时和JDK8链表更改为红黑树时。链接

案例四:自己手动写死循环

定时任务比如有个需求要求每隔5分钟,从远程拉取数据,覆盖本地数据。 这时候,如果你不想用其他的定时任务框架,可以实现一个简单的定时任务,具体代码如下:

public static void sync() {
    new Thread(() -> {
        while (true) {
            try {
                System.out.println("sync data");
                Thread.sleep(1000 * 60 * 5);
            } catch (Exception e) {
                log.error(e);
            }
        }
    }).start();
}

其实很多JDK中的定时任务,比如:Timer类的底层,也是用了while(true)的无限循环(也就是死循环)来实现的。
文章来源地址https://www.toymoban.com/news/detail-808862.html

到了这里,关于线上问题整理的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • PHP调优策略和性能测试工具的详细解析 - 大规模网站性能优化

    当面临大规模网站性能优化时,对PHP进行调优是至关重要的。这涉及到评估现有系统的性能瓶颈,并采取适当的策略来提高网站的响应速度和吞吐量。本文将深入探讨PHP调优的策略,以及可用于性能测试的工具。 使用缓存 :合理使用缓存可以减少数据库查询和计算操作,提

    2024年02月12日
    浏览(56)
  • 一线互联网架构师360°全方面性能调优,android适配器ui

    为什么要使用多进程 对于进程的概念,来到这里的都是编程修仙之人,就不再啰嗦了,相信大家倒着、跳着、躺着、各种姿势都能背出来。 相信很多同学在实际开发中,基本都不会去给app划分进程,而且,在Android中使用多进程,还可能需要编写额外的进程通讯代码,还可能

    2024年04月13日
    浏览(41)
  • JVM:性能监控工具分析和线上问题排查实践

    在日常开发过程中,多少都会碰到一些jvm相关的问题,比如: 内存溢出、内存泄漏、cpu利用率飙升到100%、线程死锁、应用异常宕机 等。 在这个日益内卷的环境,如何运用好工具分析jvm问题,成为每个java攻城狮必备的技能。所以白梦特意整理了 jdk自带分析工具的使用 ,以及

    2024年01月19日
    浏览(44)
  • 10.1. Java性能调优

    Java性能调优是一个复杂且重要的主题,它涉及到了JVM、垃圾收集器、内存管理、多线程、代码优化等多个方面。在本节中,我们将对Java性能调优的基本概念和方法进行简要介绍。 10.1.1. 理解性能指标 在进行性能调优之前,我们首先需要了解主要的性能指标。以下是一些常见

    2024年02月08日
    浏览(35)
  • Java性能调优必备知识学习路线

    性能调优是Java开发中一个非常重要的环节,它可以帮助我们提高系统的性能、稳定性、可靠性和用户体验,从而提高用户体验和企业竞争力。  目录 一、为什么要学习Java性能调优? 二、如何做好性能调优? 2.1 扎实的计算机基础 2.2 研读源码了解底层实现原理 2.3 追根问底

    2024年02月08日
    浏览(38)
  • 【Jvm】性能调优(拓展)Jprofiler如何监控和解决死锁、内存泄露问题

    Jprofilers是针对Java开发的 性能分析工具(免费试用10天) , 可以对Java程序的 内存,CPU,线程,GC,锁 等进行监控和分析 , 本人IDEA版本是 2020.2.2 ,选择的Jprofiler版本是 12.0 (早期的版本是纯英文的, 12.0支持中文 ,安装主要考虑是否与IDEA插件兼容即可) 进入Jprofiler官网下载 - Jprofiler 版本这

    2024年02月19日
    浏览(45)
  • 同构多核架构(SMP)和异构多核架构(AMP)

    同构多核架构(SMP)和异构多核架构(AMP)主要在两个角度上有区别: 处理器架构:在同构多核架构中,系统中的处理器在架构上是相同的,而异构多核架构则包含不同架构的处理器。 运行模式:在同构多核架构中,多个核心运行一个操作系统,该操作系统同等的管理多个

    2024年02月14日
    浏览(39)
  • JVM调优篇:探索Java性能优化的必备种子面试题

    首先面试官会询问你在进行JVM调优之前,是否了解JVM内存模型的基础知识。这是一个重要的入门问题。JVM内存模型主要包括程序计数器、堆、本地方法栈、Java栈和方法区(1.7之后更改为元空间,并直接使用系统内存)。 正常堆内存又分为年轻代和老年代。在Java虚拟机中,年

    2024年02月15日
    浏览(61)
  • Redis从基础到进阶篇(四)----性能调优、分布式锁与缓存问题

    目录 一、Redis 集群演变 1.1 Replication+Sentinel*高可用 1.2 Proxy+Replication+Sentinel(仅仅了解) 1.3 Redis Cluster 集群 (重点) 1.3.1 Redis-cluster架构图 1.3.2 工作原理 1.3.3 主从切换 1.3.4 副本漂移 1.3.5 分片漂移 二、Redis版本历史(增加了解) 三、Redis 5.0 源码清单 (对源码感兴趣的,看一下

    2024年02月09日
    浏览(42)
  • 一次线上mysql 调优 ,join 的调优,索引优化(Block Nested Loop)

    原因: 某接口调用十分缓慢,通过 Explain 发现是SQL问题 可以看到,在Join连接时,出现了BNL查询,BNL出现是因为,JOIN连接时 dr表也就是 domian_redemption 被驱动的表上没出现可用的索引。 个人解决方法: 在对应的连接字段上,既dr的orderCode字段,内表加上索引,再次执行Explai

    2024年02月05日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包