网讯1860网卡网络流控导致网络异常问题

这篇具有很好参考价值的文章主要介绍了网讯1860网卡网络流控导致网络异常问题。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1、背景介绍

目前使用的飞腾平台中采用国产化WX1860千兆网卡芯片,交换芯片采用盛科的CTC8096。示意图如下:

网讯1860网卡网络流控导致网络异常问题

当其中一块飞腾系统异常时,发现整个平台内所有的千兆网均出现异常,任意两个飞腾千兆网均无法ping通。

2、问题排查

一、测试场景及现象

测试场景1:

将机器1的flow control关闭,然后机器1执行xdma设备的命令复现机器1系统异常,此时其他7台机器能正常通信,且通过ethtool -S ens4f1 | grep flow命令查看,此计数没有增加。

测试场景2:

八台机器都采用默认配置,即flow control开启,然后机器1执行xdma设备的命令复现系统异常,其他七台机器通过ethtool -S ens4f1 | grep flow命令查看rx flow报文计数一直在增长,此时八台设备均不通。然后将设备2和设备3的flow control功能关闭,设备2和3之间能相互通信,这两个设备flow control报文没有再增加。

二、测试结论

根据以上信息可以得出如下结论:应该是交换芯片CTC8096不支持解析flow control报文,把flow  control报文进行广播发送(pause 报文的MAC地址是一个特定的组播MAC地址),导致接在此交换芯片CTC8096上的其它设备收到问题网卡发送的 flow control,进而导致其他的主机也不通。

当某一块飞腾系统异常时,网卡会发送flow control报文。

3、解决办法

关闭WX1860网卡的流控

ethtool -A 网口名 autoneg off rx off tx off

参考命令

关闭flow control:ethtool -A 网口名 autoneg off rx off tx off

查看flow control状态:ethtool -a 网口名

查看flow control 数量统计:ethtool -S 网口名 | grep rx_flow

查看组播统计:ethtool -S 网口名 | grep rx_multicast

查看网口所有统计:ethtool -S 网口名

 文章来源地址https://www.toymoban.com/news/detail-468635.html

到了这里,关于网讯1860网卡网络流控导致网络异常问题的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 硬件阻抗不匹配导致的RGMII通信异常问题

    最近在开发的过程中遇到了一个关于RGMII通信非常少见的问题,通过与硬件同事将近一个月的排查,终于定位到了问题,现在对问题的排查过程大致做一个复盘记录。我们的产品采用了NXP的SJA1105Q系列交换机,与交换机相连的PHY芯片采用了MARVELL的88Q2120千兆车载PHY。这个网络方

    2024年01月16日
    浏览(35)
  • UE4 内存写坏导致异常崩溃问题记录

    经常出现进程崩溃,崩溃堆栈较为底层 原因基本上都是 read write memory 时触发了异常,盘查后初步怀疑是内存写坏了。 UE 支持各种内存分配器: TBB Ansi Jemalloc Stomp 还有自带的内存分配器: Binned Binned2 Binned3 可以参考文章 UE 中的内存分配器。 其中 Stomp 是引擎提供的排查内存写

    2023年04月21日
    浏览(49)
  • 【复盘】记录一次类型不一致导致的Kafka消费异常问题

    业务主要是通过A系统向B系统写入Kafka,然后B系统消费Kafka 将结果写到Kafka中,A进行消费最终结果。 在整个流程中,A写入Kafka会写入一张 record1表记录,然后在A消费最终结果的时候也记录一张record2表。主要改动的话 只是B系统内进行写入数据,但是没有想到用的同一个Map导致

    2024年02月16日
    浏览(24)
  • ios 代码上下文截屏之后导致的图片异常问题

    业务场景,之前是直接将当前的collectionview截长屏操作,第一次截图会出现黑色部分原因是视图未完全布局,原因是第一次使用了Masonry约束然后再截图的时候进行了frame赋值,可以查看下Masonry约束和frame的冲突,全部修改成Masonry约束之后解决,现在一切都正常. 突然产品来了个

    2024年02月07日
    浏览(30)
  • 使用GDIView工具排查GDI对象泄漏导致程序UI界面绘制异常的问题

    目录 1、问题说明 2、初步分析 3、查看任务管理器,并使用GDIView工具分析

    2023年04月09日
    浏览(30)
  • 【生产问题记录】一次简单的 Http 请求异常处理 (请求的 url 太长, Nginx 直接返回 400, 导致请求服务异常)

    按照惯例直接说结论。 后台服务 A 有一个 Http 接口, 代码如下: 没错, 一个 Get 请求, 入参是一个 List 。 同时有另一个后台服务 B, 里面有段逻辑会通过 RestTemplate 调用服务 A 的这个接口, 代码如下: 在服务 B 中, 通过 batchGetUserInfo 方法请求服务 A 时, 传入了一个长度为 122 的 List

    2024年01月16日
    浏览(35)
  • 虚拟网卡、网络模式造成的tcp并发量的问题

    课程中的项目: 4 台虚拟机,1 台作为服务器接收 TCP 连接,3 台作为客户端发起连接,在服务器端达到 100 w 的并发连接量 已排查的问题: 进程 fd 数量的限制 每个进程的 fd 数量默认限制是1024,修改为了1048576(2 ^ 20) 服务器端 socket 五元组耗尽 服务器端:1 个监听端口 --

    2024年01月16日
    浏览(25)
  • Flink-网络流控及反压剖析

    参考: Apache Flink学习网

    2024年02月13日
    浏览(23)
  • GaussDB(DWS)网络流控与管控效果

    摘要: 本文主要介绍GaussDB(DWS)网络流控能力,并对其管控效果进行验证。 本文分享自华为云社区《GaussDB(DWS)网络流控与管控效果》,作者:门前一棵葡萄树。 上一篇博文GaussDB(DWS)网络调度与隔离管控能力,我们详细介绍了GaussDB网络调度逻辑,并简单介绍了如何应用网络隔离

    2024年02月02日
    浏览(29)
  • 多个网卡,nacos注册的服务ip有误,导致服务无法访问

    首先出现这种情况可能是电脑中有多个网卡,并且网卡都启动了,比如打开了移动热点   那么这个时候注册到nacos中的可能就是使用的无线网卡的ip地址,导致服务无法访问; 解决方法有两种: 1. 在启动服务前修改application文件,添加如下配置 spring.cloud.inetutils.preferred-netwo

    2024年02月11日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包