1、背景介绍
目前使用的飞腾平台中采用国产化WX1860千兆网卡芯片,交换芯片采用盛科的CTC8096。示意图如下:
当其中一块飞腾系统异常时,发现整个平台内所有的千兆网均出现异常,任意两个飞腾千兆网均无法ping通。
2、问题排查
一、测试场景及现象
测试场景1:
将机器1的flow control关闭,然后机器1执行xdma设备的命令复现机器1系统异常,此时其他7台机器能正常通信,且通过ethtool -S ens4f1 | grep flow命令查看,此计数没有增加。
测试场景2:
八台机器都采用默认配置,即flow control开启,然后机器1执行xdma设备的命令复现系统异常,其他七台机器通过ethtool -S ens4f1 | grep flow命令查看rx flow报文计数一直在增长,此时八台设备均不通。然后将设备2和设备3的flow control功能关闭,设备2和3之间能相互通信,这两个设备flow control报文没有再增加。
二、测试结论
根据以上信息可以得出如下结论:应该是交换芯片CTC8096不支持解析flow control报文,把flow control报文进行广播发送(pause 报文的MAC地址是一个特定的组播MAC地址),导致接在此交换芯片CTC8096上的其它设备收到问题网卡发送的 flow control,进而导致其他的主机也不通。
当某一块飞腾系统异常时,网卡会发送flow control报文。
3、解决办法
关闭WX1860网卡的流控
ethtool -A 网口名 autoneg off rx off tx off
参考命令
关闭flow control:ethtool -A 网口名 autoneg off rx off tx off
查看flow control状态:ethtool -a 网口名
查看flow control 数量统计:ethtool -S 网口名 | grep rx_flow
查看组播统计:ethtool -S 网口名 | grep rx_multicast
查看网口所有统计:ethtool -S 网口名文章来源:https://www.toymoban.com/news/detail-468635.html
文章来源地址https://www.toymoban.com/news/detail-468635.html
到了这里,关于网讯1860网卡网络流控导致网络异常问题的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!