【服务器数据恢复】Raid磁盘阵列常见故障类型&原因分析

这篇具有很好参考价值的文章主要介绍了【服务器数据恢复】Raid磁盘阵列常见故障类型&原因分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

由于raid的特点和优势,磁盘阵列技术被广泛应用于服务器和存储等商用领域。由于用户基数大,出现故障的情况也不少。通过这篇文章介绍一下常见的raid磁盘阵列数故障类型和原因。

【服务器数据恢复】Raid磁盘阵列常见故障类型&原因分析

 文章来源地址https://www.toymoban.com/news/detail-424400.html

故障类型一、磁盘阵列处于降级状态时未及时rebuild。
RAID磁盘阵列的数据安全冗余是利用部分空余空间实现的,阵列中有成员盘下线便无法继续提供冗余空间。如果此时未能及时更换新磁盘并rebuild整个卷,一旦raid中有其他成员盘离线将会导致整个raid卷无法工作。这类故障是北亚企安数据恢复工作中会经常遇到case。

故障类型二、raid控制器故障。
磁盘阵列控制器在充当着操作系统与物理硬盘之间的连接纽带。磁盘阵列中的硬盘数量、容量大小、raid级别、校验方式等raid信息有的存储于硬盘,有的存储于阵列卡或者在二者中都有存储。如果控制器出现故障,raid信息就无法还原,如果出现这种故障,即使能够还原raid结构并再次重建raid阵列也无法恢复数据。

故障类型三、固件算法缺陷。
RAID的创建、重建、降级、保护等功能的实现依靠的raid固件上的一套非常复杂的算法,任何复杂的算法都会有BUG,尽管厂商不会轻易承认自家产品固件算法的BUG(有可能自己也不知道)。因为固件算法BUG,发生无法解释的故障可能性肯定是有的。比如在北亚企安接到的数据恢复case中就遇到过早期生产的某品牌服务器RAID中一块盘OFFLINE后,故障盘与报警灯不一致的情况。用户在更换故障盘进行REBUILD时被误导拔错盘,导致整个RAID崩溃。

【服务器数据恢复】Raid磁盘阵列常见故障类型&原因分析

 

故障类型四、IO通道受阻导致RAID掉盘。
RAID控制器在设计时候优先考虑的是数据的安全性,RAID会尽可能避免将数据写到不稳定的存储介质上。当控制器与物理盘进行IO时,如果时间超过某个阈值或校验关系不满足,RAID控制器便会认为对应的存储介质已不具备持续稳定工作的能力并让其强制下线,然后通知管理员尽快解决问题。这种设计的初衷从技术上和逻辑上来看没有问题,但对于如物理连接线路松动,硬盘工作反应超时(硬盘还是完好的)等场景来说,控制器无法分辨存储介质是否真的出现物理故障,这种情况下会大概率强制磁盘下线。这类故障发生概率比较高且无法避免,很多用户因此类故障质疑服务器厂商。实际上。越是设计安全的RAID控制器,越容易发生此类故障。

故障类型五、控制器的稳定性。
RAID的控制器在ONLINE状态下(无离线盘)工作是最稳定的。当部分硬盘(物理故障或者逻辑故障)离线后控制器便会工作在一个相对不稳定的状态,这也是好多中低端的RAID控制器在有磁盘离线后就表现出读写性能下降的原因。控制器的不稳定会增加数据吞吐时IO滞留的可能性,从而导致上述第四个类型的故障的发生。中低端的控制器(无高性能处理芯片或者大容量高速缓存)发生这类故障的概率要高得多。

故障类型六、阵列中硬盘故障。
很多人认为磁盘阵列只要在正常工作,阵列中就不会存在有物理故障的硬盘。这个观点的判断依据是一旦raid中有硬盘出现物理故障,阵列控制器就会将故障硬盘踢下线。然而实际上并非如此。
RAID很少会读取到物理硬盘的所有磁盘空间,同一时间更是不可能。部分情况下,硬盘会在RAID没有读取到的区域或者RAID以前读取过的区域出现坏道,这类坏道因为没有被RAID读过,所以在控制器来看还是好的。
出现这种情况后可能会产生的直接后果就是在REBUILD过程中,当一块物理硬盘离线后,在进行REBUILD过程中,如果其他硬盘存在这类没有被RAID读取到的坏道,由于REBUILD是对全盘做全面同步,在REBUILD过程中就一定会读写到这类之前没有被RAID读取到的坏道。这时REBUILD还没完成,新盘无法上线,又在旧盘发现了坏道,RAID极有可能将发现坏道的旧盘踢出,这样就会导致RAID故障。

故障类型七、人为误操作。
人为误操作导致的RAID故障,例如:误拔了RAID里的硬盘、更换坏盘不及时、拔出硬盘更换或者进行其他操作后忘记硬盘在RAID中的顺序、不小心删除了原RAID配置等。

【服务器数据恢复】Raid磁盘阵列常见故障类型&原因分析

 

到了这里,关于【服务器数据恢复】Raid磁盘阵列常见故障类型&原因分析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 服务器数据恢复-raid10重建为raid6的数据恢复案例

    服务器故障: 一台IBM V7000存储中的vdisk丢失,Solaris操作系统中的部署的Oracle数据库不可用。经过和工作人员的沟通得知故障原因:工作人员进行重建MDisk的操作,将原先的raid10重建为raid6,然后又再次重建为raid10,这一系列操作导致存储池中的VDisk丢失,导致上层Solaris操作系

    2024年02月12日
    浏览(40)
  • 【服务器数据恢复】ZFS文件系统下raid5数据恢复案例

    服务器数据恢复环境: 某公司一台EMC某型号存储中有一组由12块硬盘组建的raid5磁盘阵列,其中有2块盘作为热备盘使用。 服务器故障分析: raid5磁盘阵列中有2块磁盘离线,只有1块热备盘成功启用,另外一块热备盘未启用,raid阵列崩溃。 服务器硬盘离线的原因无非为磁盘出

    2024年02月11日
    浏览(53)
  • 【服务器数据恢复】HP MSA存储raid5数据恢复案例

    服务器故障环境: HP MSA某型号存储,8块SAS的硬盘组建RAID5磁盘阵列,其中包括1块热备盘。故障存储中基于该RAID组的LUN均分配给HP-Unix小机使用,上层做的LVM逻辑卷,存储的数据为Oracle数据库及OA服务端。 服务器故障: RAID5磁盘阵列中2块磁盘未知原因离线,阵列中的热备盘虽

    2023年04月26日
    浏览(53)
  • RAID5重建失败的服务器数据恢复案例

    服务器数据恢复环境: 一台IBM某型号服务器,4块SAS磁盘组建了一组RAID5磁盘阵列。服务器安装的windows server操作系统,上面运行了一个Oracle单节点,数据存储为文件系统,无归档。该oracle数据库的数据量不大,只有一个用户,使用默认的users表空间,users空间下只有一个不大的

    2024年02月13日
    浏览(52)
  • 【服务器数据恢复】raid离线磁盘上线失败导致分区不识别的数据恢复

    服务器数据恢复环境: HP ProLiant DL某系列服务器,三块SAS硬盘组建raid阵列。 上层系统部署有数据库,数据库存放在D分区,备份存放在E分区。 服务器故障: 磁盘故障导致RAID瘫痪,其中一块硬盘状态灯显示红色。存放数据库文件的D分区无法识别;E分区可识别,但是拷贝备份

    2024年02月06日
    浏览(44)
  • 服务器数据恢复—EVA存储raid5硬盘离线的数据恢复案例

    服务器数据恢复环境: 某品牌EVA某型号存储,底层是RAID5阵列,划分了若干lun。 服务器故障分析: 该存储设备中raid5阵列有两块硬盘掉线,存储中的lun丢失。 将故障服务器存储中的所有磁盘编号后取出,硬件工程师检测后发现掉线硬盘不存在物理故障,也没有发现坏道,都

    2024年01月24日
    浏览(44)
  • 服务器数据恢复—OceanStor存储raid5热备盘同步数据失败的数据恢复案例

    服务器数据恢复环境: 华为OceanStor某型号存储,存储内有一组由24块硬盘组建的raid5阵列,配置1块热备盘。 服务器故障: 该存储raid5阵列中有一块硬盘离线,热备盘自动激活并开始同步数据,在热备盘同步数据的过程中,raid5阵列中另一块硬盘离线,上层应用崩溃,数据丢失

    2024年01月19日
    浏览(59)
  • 服务器数据恢复-RAID5多块磁盘离线导致崩溃的数据恢复案例

    服务器数据恢复环境: DELL POWEREDGE某型号服务器中有一组由6块SCSI硬盘组建的RAID5阵列,LINUX REDHAT操作系统,EXT3文件系统,存放图片文件。   服务器故障分析: 服务器raid5阵列中有一块硬盘离线,管理员没有及时发现,直到服务器raid5阵列中的另一块硬盘掉线,raid5阵列瘫痪,

    2024年02月12日
    浏览(65)
  • 服务器数据恢复—nas硬盘故障导致raid6失效、存储无法访问的数据恢复案例

    服务器故障分析: 一台nas存储中有一组由十几块硬盘组建的raid6磁盘阵列。 nas存储中的raid6阵列成员盘出现故障离线,磁盘阵列崩溃,nas存储无法正常访问。 北亚企安数据恢复工程师将nas存储内的所有硬盘编号后取出,经过硬件工程师检测后,发现所有硬盘(包括离线的硬盘

    2024年02月08日
    浏览(34)
  • 服务器数据恢复-raid5同步过程中又有一块磁盘报警的数据恢复案例

    服务器数据恢复环境: 某研究院一台DELL存储,15块硬盘搭建的一组RAID5磁盘阵列。 该RAID5阵列只有一个卷组,该卷组占用了阵列的全部空间;该卷组只有一个起始位置为0扇区的XFS裸分区。   服务器故障初检分析: 该RAID5阵列中有一块硬盘由于未知原因离线,工作人员更换新

    2024年02月14日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包