Oracle Exadata X7-2掉电宕机导致集群无法启动处理过程

这篇具有很好参考价值的文章主要介绍了Oracle Exadata X7-2掉电宕机导致集群无法启动处理过程。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


前言

客户突然联系说应用无法连接数据库,报错如下:

[ERROR]-[Thread: Druid-ConnectionPool-Create-26728049]-[com.alibaba.druid.pool.DruidDataSource$CreateConnectionThread.run()]: create connection error, url: jdbc:oracle:thin:@x.x.x.93:1521:empdb011, errorCode 17002, state 08006
java.sql.SQLRecoverableException: IO 错误: The Network Adapter could not establish the connection
	at oracle.jdbc.driver.T4CConnection.logon(T4CConnection.java:774)
	at oracle.jdbc.driver.PhysicalConnection.connect(PhysicalConnection.java:688)
	at oracle.jdbc.driver.T4CDriverExtension.getConnection(T4CDriverExtension.java:39)
	at oracle.jdbc.driver.OracleDriver.connect(OracleDriver.java:691)
	at com.alibaba.druid.filter.FilterChainImpl.connection_connect(FilterChainImpl.java:148)
	at com.alibaba.druid.filter.stat.StatFilter.connection_connect(StatFilter.java:220)
	at com.alibaba.druid.filter.FilterChainImpl.connection_connect(FilterChainImpl.java:142)
	at com.alibaba.druid.filter.FilterAdapter.connection_connect(FilterAdapter.java:785)
	at com.alibaba.druid.filter.FilterChainImpl.connection_connect(FilterChainImpl.java:142)
	at com.alibaba.druid.pool.DruidAbstractDataSource.createPhysicalConnection(DruidAbstractDataSource.java:1463)
	at com.alibaba.druid.pool.DruidAbstractDataSource.createPhysicalConnection(DruidAbstractDataSource.java:1525)
	at com.alibaba.druid.pool.DruidDataSource$CreateConnectionThread.run(DruidDataSource.java:2100)
Caused by: oracle.net.ns.NetException: The Network Adapter could not establish the connection
	at oracle.net.nt.ConnStrategy.execute(ConnStrategy.java:523)
	at oracle.net.resolver.AddrResolution.resolveAndExecute(AddrResolution.java:521)
	at oracle.net.ns.NSProtocol.establishConnection(NSProtocol.java:660)
	at oracle.net.ns.NSProtocol.connect(NSProtocol.java:286)
	at oracle.jdbc.driver.T4CConnection.connect(T4CConnection.java:1438)
	at oracle.jdbc.driver.T4CConnection.logon(T4CConnection.java:518)
	... 11 more
Caused by: java.io.IOException: Connection timed out: connect, socket connect lapse 20998 ms. /x.x.x.93 1521 0 1 true
	at ora

一、当前的状态是什么?

集群状态宕掉了,且无法正常启动!!!
Oracle Exadata X7-2掉电宕机导致集群无法启动处理过程,运维日常,oracle,数据库,EXADATA
Oracle Exadata X7-2掉电宕机导致集群无法启动处理过程,运维日常,oracle,数据库,EXADATA

二、集群启动异常怀疑对象

1.排查心跳网络异常

ping自己私有IP延迟高

Oracle Exadata X7-2掉电宕机导致集群无法启动处理过程,运维日常,oracle,数据库,EXADATA

ping其它主机私有IP不通

Oracle Exadata X7-2掉电宕机导致集群无法启动处理过程,运维日常,oracle,数据库,EXADATA
那么问题定位到私有IP不通导致的集群无法启动,一体机内部私有IP交互是通过自身的IB交换机完成的,很有可能是IB交换机问题,下面进行日志查询取证。

2.是否发生过重启

每台机器都发生过重启,明显掉电情况
Oracle Exadata X7-2掉电宕机导致集群无法启动处理过程,运维日常,oracle,数据库,EXADATA

三、日志信息收集

ocssd.trc

Oracle Exadata X7-2掉电宕机导致集群无法启动处理过程,运维日常,oracle,数据库,EXADATA
Oracle Exadata X7-2掉电宕机导致集群无法启动处理过程,运维日常,oracle,数据库,EXADATA
Oracle Exadata X7-2掉电宕机导致集群无法启动处理过程,运维日常,oracle,数据库,EXADATA

集群crs日志

Oracle Exadata X7-2掉电宕机导致集群无法启动处理过程,运维日常,oracle,数据库,EXADATA

cell的griddisk状态及报错

Oracle Exadata X7-2掉电宕机导致集群无法启动处理过程,运维日常,oracle,数据库,EXADATA
尝试启动:
Oracle Exadata X7-2掉电宕机导致集群无法启动处理过程,运维日常,oracle,数据库,EXADATA
那么排查到这里可以断定,是由于上层问题导致的griddisk不正常无法拉起集群,此处上层的IB交换机就成为重要排查对象。

四、IB交换机的问题排查处理

通过融合IP登入ilom管理网页失败,只能通过ssh
Oracle Exadata X7-2掉电宕机导致集群无法启动处理过程,运维日常,oracle,数据库,EXADATA
Oracle Exadata X7-2掉电宕机导致集群无法启动处理过程,运维日常,oracle,数据库,EXADATA
登入后看到明显的提示,尝试boot重启失败:
Oracle Exadata X7-2掉电宕机导致集群无法启动处理过程,运维日常,oracle,数据库,EXADATA
Oracle Exadata X7-2掉电宕机导致集群无法启动处理过程,运维日常,oracle,数据库,EXADATA
还发现掉了一个PDU,进行确认私有IP通信正常

五、紧急恢复业务

在IB完成正常重启后,重新启动所有cell服务

Oracle Exadata X7-2掉电宕机导致集群无法启动处理过程,运维日常,oracle,数据库,EXADATA
Oracle Exadata X7-2掉电宕机导致集群无法启动处理过程,运维日常,oracle,数据库,EXADATA

拉起集群:

Oracle Exadata X7-2掉电宕机导致集群无法启动处理过程,运维日常,oracle,数据库,EXADATA

六、收尾工作

check修复第二台IB交换机

重新挂载nfs共享目录

Oracle Exadata X7-2掉电宕机导致集群无法启动处理过程,运维日常,oracle,数据库,EXADATA

检查PDU,确实已掉电

Oracle Exadata X7-2掉电宕机导致集群无法启动处理过程,运维日常,oracle,数据库,EXADATA
Oracle Exadata X7-2掉电宕机导致集群无法启动处理过程,运维日常,oracle,数据库,EXADATA

七、原因调查

PDU问题由于29日晚操作切电操作导致UPS路跳闸

主机等log显示电源切换

Oracle Exadata X7-2掉电宕机导致集群无法启动处理过程,运维日常,oracle,数据库,EXADATA

29日有检测到FAN0风扇数值是0

Oracle Exadata X7-2掉电宕机导致集群无法启动处理过程,运维日常,oracle,数据库,EXADATA
但实际风扇只应该显示FAN1~3才对,出现FAN0也是奇怪,有知道朋友可以留言。


总结

通过整体问题梳理,应该是在用过进行切电作业时候导致UPS跳闸,且市电进行切换导致的整个一体机机柜出现了掉电情况,然后服务器重启后,IB交换机自检硬件有问题导致自检失败所有整体的私有IP和以下的集群服务无法正常启动。文章来源地址https://www.toymoban.com/news/detail-717754.html

到了这里,关于Oracle Exadata X7-2掉电宕机导致集群无法启动处理过程的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • K8S集群中Node节点资源不足导致Pod无法运行的故障排查思路

    故障一:Pod数量太多超出物理节点的限制 每一台Node节点中默认限制最多运行110个Pod资源,当一个应用程序有成百上千的Pod资源时,如果不扩容Node节点或者修改最大Pod数量限制,那么就会导致部分Pod资源无法正常运行,因为节点已经没有资源可以被调度了。 解决思路就是扩容

    2024年02月02日
    浏览(36)
  • 验证K8S集群pod之间传输速度过慢,导致pod之间业务无法正常交互

    原因: K8S部署完成后,但是pod之间无法进行交互访问,导致pod异常 定位思路: 通过启动两个busybox容器,之间进行scp传输文件,验证pod之间tcp连接是否正常 解决方法: 运行第一个busybox 拷贝文件至busybox1 进入第一个busybox1 进入第二个busybox1 结论: 发现1K的文件可以相互拷贝

    2024年03月19日
    浏览(56)
  • Calico 报错 calico/node is not ready: BIRD is not ready: BGP not established with(导致 K8S 集群网络无法使用)

    错误 今天不知道怎么回事,一台机器的calico-node报错,也就是无法初始化正常 解决办法         移除这台主机多余的docker网卡和calico         然后从重新删除这个错误pod的,就会恢复正常         造成问题的原因是,Calico使用了错误的网桥导致网络无法连通,所以我

    2024年02月07日
    浏览(34)
  • 分布式项目08 redis的扩容,预备redis宕机的哨兵处理 和 最后集大成redis集群

    01.redis扩容 由于redis的容量也是有限的,所以,就会有扩容的操作。也就好像内存中扩容一样。redis有分片这种说法,具体实现操作如下: 第一步:首先在/usr/local/src中去找到redis文件夹。cd /usr/local/src 而后进入redis文件夹。使用的linux命令是 cd redis 。 第二步: 01.使用查看当前

    2024年02月05日
    浏览(28)
  • oracle归档日志满了导致启动不起来解决

    原因:闪回归档区的空间满了 解决方法1:增大闪回恢复区 解决方法2:使用rman删除存档日志 查看归档日志使用情况 清空归档日志

    2024年02月11日
    浏览(23)
  • 【现场问题】flink-cdc,Oracle2Mysql的坑,Oracle区分大小写导致

    Column ‘id’ is NOT NULL, however, a null value is being written into it. You can set job configuration ‘table.exec.sink.not-null-enforcer’=‘DROP’ to suppress this exception and drop such records silently 大致意思就是不能插入为空的数值。 为什么会报这个错误,我们来看DML的执行语句: insert into t_wx_target select

    2024年02月12日
    浏览(34)
  • Oracle ORA-01033: ORACLE initialization or shutdown in progress(误删了DBF数据库文件导致)解决方法

    先声明一下前期的一些手欠欠儿的操作导致oracl登录不进去了,起先是清理磁盘空间的时候误删除了orcle DBF数据文件后无法进入系统,plsql登录报错如下: 一般情况下,删除表空间的正确方法是: DROP TABLESPACE BDCDJ INCLUDING CONTENTS AND DATAFILES; 如果没有通过以上命令删除而直接删

    2024年02月02日
    浏览(45)
  • docker导致远程主机无法访问,docker网段冲突导致主机网络异常无法访问

    背景:         公司分配的虚拟机是172网段的,在上面部署了docker、docker-compose、mysql、redis,程序用docker-compose管理,也平稳运行了一个多周,某天用FinalShell连主机重启docker容器,忽然断开连接,然后虚拟机就无法远程连接了,公司平台组通过后台连接虚拟机正常,网络正常

    2024年02月06日
    浏览(31)
  • node使用高版本的oracledb导致连接oracle的Error: NJS-138异常

    Error: NJS-138: connections to this database server version are not supported by node-oracledb in Thin mode    我的oracle版本是11g,之前的使用正常,今天却报错了,显示不支持thin模式,后面回退版本就可以了。    

    2024年02月12日
    浏览(42)
  • 【Oracle篇】Oracle集群-rac模式

    RAC(real application clusters) 整个集群系统又分为 oracle Clusterware (集群就绪软件)和 Real Application(RA) 两大部分组成。 基本架构 rac 是 Oracle 数据库的高可用集群。传统数据库一个实例一个数据库, RAC 是多个实例,一个数据库,多个实例之间共享一个数据库,但不是分布式。 RAC的优

    2024年02月05日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包