如何监控EMC VNX控制器的启动过程

这篇具有很好参考价值的文章主要介绍了如何监控EMC VNX控制器的启动过程。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

这里我们要讨论的内容基本上适用于所有的EMC VNX中端存储系统,包含老的Clariion CX3,CX4,VNX1和VNX2,其实VNXe和Unity很多内容也是一样的。当然由于VNXe和Unity 操作系统的大的变化,差异也是比较大的。

导致EMC Clarrion CX和VNX存储控制器故障的原因有很多,常见的有:

1. 控制器物理故障

2. 控制器的IO模块故障

3. 系统盘Vault 软件或者硬件故障

4. 控制器中的内存故障

5. 存储操作系统的软件bug

上述所有原因到可以导致控制器挂掉,写这篇文章的目的就是想给二把刀们科普下,控制器down offline不是所有的都能通过更换控制器来解决问题。

但如何判断是控制器的物理故障还是其他部件的故障,或者是软件导致的故障,这个属于比较专业的内容,靠一篇小博文是搞不定的,具体可以通过wechat: StorageExpert和我们沟通来进行专业判断。

本文会给出一些基本的现场工程师可以操作的方式来做一些简单判断。

1. 看图识字

这个是我们最喜欢的方式,但这个也是有专业性的,当然学会了,可以有个基本判断。不管是CX3,CX4还是VNX1和2,控制器的状态灯都是类似的,虽然不同的控制器的物理外观不同,但都可以找到下面的几个灯,我们用CX或者VNX5700/7500的图片为例进行讲解,其他控制器也有类似的三个状态灯。如下图所示:

如何监控EMC VNX控制器的启动过程

控制器上有三个LED灯,

1) 电源指示灯,很多人把这个和控制器的故障LED灯搞混肴。电源指示灯很简单,加电就常亮,绿色。没有点了,就灭了。

2) 控制器的故障SP指示灯,这个灯很重要,判断一个控制器的大概问题是通过这个灯来做的。

3) 白色小手灯,这个灯是一个警示灯,如果这个灯点亮,要么说明控制器正在更新固件或者是只有这个控制器在运行,另外一个控制器已经挂了。就是千万不要动的意思。

下面重点介绍下SP的故障指示灯的各种状态的含义,注意这个指示灯不是一成不变的的,始终是个变化的过程,有时候让现场的人看看这个指示灯的情况,就马上给拍个3秒钟的视频,这个鸟用没有。你要观察这个指示灯的变化情况,然后根据下来来说到达了那个状态。

LED灯

灯的颜色

灯的状态

说明

SP 电源

Blue

On

加电了

off

没有上电

SP 笼子

Amber

On

有故障,这个故障可以来自整个chassis(电源,环境,风扇,io module LCC卡,sp,CMI,SFP PROM 等)

有时候让现场工程师看sp的状态,往往给的是这个灯的情况,主要搞清楚。

off

运行正常

SP Fault LED

(正常启动)

Amber

On(持续)

SP故障

四秒闪烁一次

BIOS在执行

每秒闪烁一次

POST在执行

一秒闪烁四次

Post开始启动OS

Blue

每四秒闪烁一次

OS开始boot

每2秒闪烁一次

SEP驱动开始启动

每秒四次闪烁

SEP 驱动启动完成

off

操作系统启动完成或者是没有起来

SP Fault LED

degrade启动)

Amber

四秒闪烁一次

BIOS在执行

每秒闪烁一次

POST在执行

一秒闪烁四次

Post开始启动OS

Blue

每四秒闪烁一次

OS开始boot

on持续长blue

进入degrade 模式

SP Fault LED

(有故障启动)

Amber

on

有故障发生

每2秒闪烁一次

NMI reset button pushed; blinking will continue until SP reboots and enters power on sequence.

Blinks at 1, 3, 3,

and 1 times a

second

有内存故障

Blue

on

故障发生

SP unsafe to remove 小白手

White

on

 The SP peer has a panic or rebooted with the cache

performance mode enabled. The SP is holding valid cache in memory.

The SP is currently flashing the BIOS/Post firmware or updating the resume PROMs.

The SP is currently dumping the cache data to the vault.

off

The SP can be safely removed for service.

2. 对端控制器来监控过程

如果已经知道了控制器启动到了那个状态,或者根据指示灯大概判断问题在那个阶段,但具体还不知道是什么问题,就可以通过Remoteanywhere登录到正常的对端控制器,然后用工具speclcli来监控启动过程,这个对于故障发生在操作系统级别是比较有用的,可以看到具体那个driver开始重启。但对于判断物理硬件不是很好使,基本上它会告诉你POST以后出了问题,但具体是什么出了问题,就没有详细说明了。

remoteanywhere是对软件问题进行分析的必备工具,也是很复杂的,对VNX的软件体系架构不理解,这个工具基本没有帮助。因为查询出来的结果你是看不懂的。

3. 串口线

这个对于诊断物理故障是最有效的手段,插上串口线,一定要重启控制器,有些人说插上插口线以后,没有任何输出。对于VNX来说,没有任何输出是正常的。控制器启动以后,就没有任何输出了,只有启动过程中才有输出。

所以插上串口线以后,一定要重启控制器来收集这个boot log,从这个日志可以判断出是否是前面的几个系统盘出了问题,还是那个部分的硬件出了问题,都会有清晰的日志描述。

下面是一段Base module报错的格式,如果是其他IO module报错也会有类似的提示,或者DIMM内存报错等,都有类似的说明,非常清楚的可以看到是什么物理故障出现问题。

With the DAE added, when booting up, we have the following errors logging during the boot up.

.... Storage System Failure - Contact your Service Representative ...

ErrorCode: 0x00000907

ErrorDesc:

FRU: Base Module

Device: Base Module Card

Description: BMC indicated I/O module power disabled Error!

Rev: 40.41

Determine Module*

P/N: 303-224-000C-03

S/N: CFxxxxxxxxxxxx

EndError:

ErrorTime: 11/13/2013 23:16:24

WARNING: No SES driver GUID found: Expander

.... Storage System Failure - Contact your Service Representative ...

ErrorCode: 0x00000907

ErrorDesc:

FRU: Base Module

Device: Base Module Card

Description: BMC indicated I/O module power disabled Error!  <<<--

Rev: 40.41

Determine Module*

P/N: 303-224-000C-03

S/N: CFxxxxxxxxxxxx

EndError:

ErrorTime: 11/13/2013 23:16:24

这里就不一一列举各种物理故障的输出,有了输出可以联系我们来一起看,wechat at StorageExpert。

最后纠正大家一个概念,EMC的VNX存储系统没有控制器同步的概念,控制器中没有OS操作系统,有的就是一些物理部件的固件,这个系统自己会根据当前的OS来进行升级或者降级,不需要用户干预和关心。操作系统都在前面四个系统盘上,控制器里面对于存储OS是啥也没有,以后就不要再说,控制器不同步这样太不专业的话了。文章来源地址https://www.toymoban.com/news/detail-477739.html

到了这里,关于如何监控EMC VNX控制器的启动过程的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 如何将电机控制器添加到您的 ROS 机器人

            如果您正在构建与 ROS/ROS2 一起使用的移动机器人,您需要做的第一件事就是集成电机控制器。电机控制器的目的是接受来自更高级别的软件(如导航堆栈)的消息,并将其转换为驱动电机的信号。它还将从电机的编码器接收信息,以计算机器人的速度和位置。 您

    2024年02月15日
    浏览(38)
  • k8s控制器之DaemonSet--第三弹DaemonSet 是如何调度的

    v1.12以后默认禁用 通常,Kubernetes Scheduler(调度器)决定了 Pod 在哪个节点上运行。然而 DaemonSet Controller 创建的 Pod 已经指定了 .spec.nodeName 字段,因此: Node 节点的 unschedulable (opens new window)字段将被 DaemonSet Controller 忽略 DaemonSet Controller 可以在 kubernetes scheduler 启动之前创建

    2024年02月10日
    浏览(32)
  • 如何使用MCP2518FD外部CAN FD控制器实现速速CAN通信

             MCP2518FD外部CAN FD控制器具有小尺寸和SPI接口,可实现轻松连接。可将CAN FD通道轻松添加到缺少CAN FD外设或没有所需CAN FD通道的微控制器上。MCP2518FD支持经典格式 (CAN 2.0B) 和CAN灵活数据速率 (CAN FD) 格式中的CAN帧格式,符合ISO11898-1:2015标准。  框图: 本文实验板

    2024年01月18日
    浏览(28)
  • 【Unity】【VRTK】【Pico】如何快速在VRTK中引入带动画的PICO控制器

    之前的VRTK篇章中,我只介绍了Oculus,Open VR,SImulator这三种Rig的配置方法,那么Pico如何融合VRTK进行开发呢? 先像一个正常PICO项目那样导入PICO的SDK到Unity。 VRTK 4的Package导入器中搜Pico,可以导入一个Pico的Integration,导入后Project面板的Packages文件夹下会出现Tilia SDK PicoIntegratio

    2024年01月16日
    浏览(40)
  • k8s控制器之job--第九弹 job如何使用扩展进行并行处理

    下面是一个 Job 的模板文件: 与 pod template 不同,此处的 job template 并不是一个 Kubernetes API 对象,而仅仅是 Job 对象的 yaml 文件(其中包含一些占位符)。例子文件中的 $ITEM 对 Kubernetes 并没有任何意义,仅仅是一个占位符,必须在使用时用实际数值替换。 在此例子中,容器唯

    2024年02月10日
    浏览(30)
  • AD域控制器将辅域控制器角色提升为主域控制器

    域控服务器迁移,已将新机器添加为该域的辅域控制器。 主域控制器:test-dc-01 辅域控制器:test-dc-02 需求将主辅域的角色进行互换,test-dc-01更换为辅域,test-dc-02更换为主域。 方法1 命令行修改AD域角色 1.查看当前主域控制器是哪台机器,查询命令 netdom query fsmo 可以看到当前

    2024年02月12日
    浏览(36)
  • Unity 第三人称 玩家控制器+相机控制器

    今天给大家分享一个简单的Unity第三人称视角下玩家控制器和相机控制器的脚本编写方法。   效果如下: 主要分三部分实现:人物旋转、人物移动、相机旋转。 1.人物移动: 首先获取到人物水平和垂直移动的参数: 因为人物移动的方向跟摄像头一致,所以需要根据摄像头的

    2024年02月06日
    浏览(43)
  • 18-k8s控制器资源-cronjob控制器

            job控制器是执行完一次任务,就结束;         cronjob控制器,是基于job控制器,定期频率性执行任务;等同于linux系统中的crontab一样; [root@k8s231 pi]# vim cronjob.yaml apiVersion: batch/v1 kind: CronJob metadata:   name: xinjizhiwa spec:   schedule: \\\"* * * * *\\\"   #定义job的模板   jobTemplate

    2024年02月22日
    浏览(49)
  • 15-k8s控制器资源-deployment/部署控制器

            在学习rc和rs控制器资源时,我们指导,这两个资源都是控制pod的副本数量的,但是,他们两个有个缺点,就是在部署新版本pod或者回滚代码的时候,需要先apply资源清单,然后再删除现有pod,通过资源控制,重新拉取新的pod来实现回滚或者迭代升级;         那么

    2024年02月21日
    浏览(54)
  • 14-k8s控制器资源-rs控制器replicasets

            replicaset副本控制器,简称:rs控制器;         用法:与rc控制器“几乎”相同;         能力:可以指定pod的副本始终存活,相比于rc控制器;支持标签匹配,也支持标签表达式         注意:不论是rc还是rs资源,都是通过“标签”惊醒匹配pod的,如果有同样

    2024年02月21日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包