愿有人不怕天黑
只怕你心酸皱眉

NetApp 网络存储更换硬盘

注意

请注意:NetApp仅支持自身原厂的硬盘。(硬盘上有NetApp的标签)

加电顺序

此文档适用于 NetApp FAS/V 系列,含两个控制器及若干谱盘拓展柜,其中两个控制器为双活关系。

Disk Shelf(硬盘架)

先加电,待稳定后(大约2分钟),给机头加电。

Filer(机头)

磁阵机头,对应于其他类型磁阵的控制器。

加电操作流程
1、打开所有磁盘拓展柜电源模块,等待磁盘拓展柜前面板所有硬盘亮起绿灯,说明所有硬盘已经启动完成,
2、打开 AB 两个控制器的电源模块,等待 AB 两控制器启动,
3、控制器启动后,使用 root 账号登录 AB 两个控制器,根据断电前收集的配置信息检查系统状态,
4、系统状态检查完成,系统正常启动,

分别登录 FAS/V 两个控制器,使用下面命令收集检查配置信息, 以便加电后检查存储状态,命令:

sysconfig -a
sysconfig -r
ifconfig -a
Iun show
igroup show
Iun show -m
ifgrp status
df -h
df -Ah
cf status

断电操作流程

在 AB 两台控制器上分别|输入命令关机,
halt -f
使用串口线连接到 AB 两个控制器的 console 口,确认 AB 两个控制器均进入
LOADER-A>模式,
关闭 AB 两台控制器的电源模块,
关闭所有拓展磁盘柜电源模块。

 

回退方案
1、如果系统加电后无法正常启动,使用串口线连入控制器的 console 口,在 LOADER-A 模式下输入命令,boot_ontap 启动。如果 boot_ontap 无法启动系统,在 LOADER-A 模式下输入命令,boot_backup,使用备份系统镜像启动系统。
2、如果系统启动后,系统配置不准确,使用关机前收集的系统配置信息进行修正。

 

Netapp存储控制器接管(假如 B 接管 A):

1、首先确认2个控制器的CPU均低于50%(高于50%接管会出问题)。

2、确认A、B之间有开启CF。

B:> cf status   (显示A is up说明开启)

3、接管:

B:> cf takeover  (默认就是接管A,会等180秒)

4、交还

如果A控制器显示waiting for giveback,则表示可以进行交还操作。

B:> cf giveback

如果显示失败(一般为B接管后有人访问原来A的数据),可以cf giveback -f(强制交还)。

切到A控制器等待完成,完成后查看下数据及服务即可。

 

查看网络状态

ifconfig -a,查看每个网卡的 ip。

如果存在虚拟网卡绑定,主要看 vif 接口的 ip。

 

设备结构

磁盘(Disk)

最基本的存储单元。

阵列(RAID)

一组磁盘的集合。阵列组(RAID Group)由一块或多块数据磁盘加上一块或多块数据校验盘组成。Date Ontap 收集多块的原始磁盘为一个组,这个组称之为 RAID GROUP。一个 RAID GROUP 是由 data disk 和 parity disk 提供磁盘的数据保护。尽管现在有多个不同的RAID类型,Date ONTAP 只支持两种
RAID类型:RAID4和RAID DP。

RAID4

校验数据与 RAID5 的校验数据一样,都是数据盘上对应 bit 位的异或校验结果,只是 RAID4 将所有校验数据放在一个盘上(就是校验盘),而 RAID5 将校验数据分散到所有盘上。

RAID DP(DOUBLE PARITY)

即双校验盘,其中两块校验盘的数据不一样:第一块校验盘的数据与 RAID4 一样,第二块盘的数据是通过对角线方式异或计算出来的。

热备盘(Hot Spares)

存储里面,RAID 组以外的盘被定义为 Spare 盘,热备盘,如果一块磁盘损坏,将由 spare 盘补上,并重建数据。使用以下命令来确认磁盘是否损坏:

* sysconfig -r

* vol status -r

* aggr status -r

降级模式(Degraded Mode)

当一个RAID4组里有一块硬盘失效或一个RAID_DP组里有两块硬盘损坏并且在没有 hot spare 盘的情况下,系统就会时入此模式。
在此模式下并不会有数据的丢失,系统定义进入降级模式的时间间隔为24小时。可以使用 options raid.timeout 这个属性来进行更改。

集丛(Plex)

是一个或多个 RAID Group 的组合。

集合(Aggregate)

一个或多个 Plex 的组合。如果RG组做镜像了,则一个 aggr 包含两个 plex,否则只包含一个 plex。Aggr 用来管理 plex 和 RAID 组,因为这些实体只能作为 aggr 的一部分存在。

卷组(Volume)

位于Aggrage下面的一个目录,是一组逻辑的组合,可以对外提供服务。NetApp 磁阵磁盘管理的特殊方式,一个卷至少有一个 RAID GROUP,也可以有多个 RAID GROUP。存放系统数据的称为根卷(root volume)。其他存放数据的卷称为普通卷。一个机头有且只有一个根卷。NetApp 磁阵上的 LUN 是在 Volume 上创建的。

卷分为传统卷和灵活卷。

传统卷:只能在一个 Aggregate 中,只能通过添加整个新硬盘的容量来扩容,不能减小,一个 RG 上只能有一个传统卷。

灵活卷:可以只包含某个 RG 的一部分。

根卷(/vol),每个 NetApp 存储都必须有且只有一个 root volume,存储启动的时候要读取在它上面保存的数据。root 卷是唯一具有 root 属性的卷,而它里面的 /etc 目录保存的是配置信息。它与其它 vol 差不多,只不过这个 vol 还存放 ontap 的配置信息、日志、firmware等等东西。/vol 不是一个目录,它是一个特殊的虚拟 root 路径,存储用它来 mount 其它目录。不能通过 Mount  /vol 来看其它卷,只能是 mount 每个卷单独的。

qtree,逻辑定义单位,定义在传统卷或灵活卷的子目录下,每个卷下最多可创建4995个qtree。Qtree主要作用为:利于数据管理和分配;管理软硬使用限额。

Qtree 与 volume 区别:不能对单个 qtree 进行快照;不支持空间保留和回收。

quotas,限制用户或组使用的磁盘空间和文件使用数。

LUNLogical Unit)被客户端在存储系统上访问的存储单元。

Snapshot,是netapp的快照技术,它有占用空间少,不影响性能,生成简便,恢复数据灵活快捷等突出优点。

Qtree,位于Volume下面的目录,是更小的存储单元,可以提供配额管理。

设置

首先 ssh 通过 IP 登录 NAS。

查看一下系统状态。

sysconfig -a

查看一下系统的磁盘阵列状态。

sysconfig -r

查看磁盘状态

disk show -v

查看系统日志

rdfile /etc/messages

rdfile /etc/messages.1

此时可查看热备盘数量是否减少,如果热备盘比之前少了一块则说明热备盘已经开始顶替故障盘进行工作。

aggr status -s

切换到维护模式。

priv set advanced

(此时命令前带“ * ”)

查看硬盘的型号。

disk_list

或者使用命令

storage show disk -x

注意:NetApp仅支持自身原厂的硬盘。(硬盘上有NetApp的标签)

虽然同为 HITACHI 出品的硬盘,型号也一样。但是互相并不兼容。原厂盘在系统中的 VENDOR 为 NetApp,而不是 HITACHI。型号为 X422,版本为 A0。

如果想查看磁盘错误信息的明细。请使用以下命令。

sasstat dev_stats

物理磁盘更换。Netapp物理机拔出黄灯报警硬盘,几秒钟后插入新盘,注意观察有闪黄灯变为绿灯过程。

再次通过“disk show –v”查看磁盘归属情况,可看到 0a.00.2 状态为“Not Owed”与“NONE”,说明此磁盘未归属任何机头。

如果机头为多个,则可根据实际需求,将不同的磁盘分配给不同的机头进行管理,此时则需要登录磁盘所要分配的机头按照下面的命令进行磁盘分配。

注意:以下步骤要把磁盘分配给哪个机头(如机头A),建议是通过串口登录该机头。这样可以看到比较完整的输出信息。当然,这不是必须的。SSH登录也能完成安装。

串口连接netapp
用一条一头为 RJ45,一头为 DB9 的控制线分别接在磁阵 console 口和 WIN 操作系统终端的串口上,WIN 操作系统终端和磁阵的网口分别接一根网线到交换机,WIN 操作系统终端的 IP 配置要和磁阵准备分配的 IP 在一个网段。这样在 WIN 操作系统终端上就可以开始磁阵的配置了。
打开 windows 里的 Putty,设置为 default: 9600波特率/8位/无校验/1位停止位,确认后回车出现登录提示符,登录用户名为 root,输入密码即可。

切换到维护模式。

priv set advanced

(此时命令前带“ * ”)

查看未分配的硬盘

disk show -n

磁盘分配

disk assign 0a.00.2 (分配磁盘0a.00.2)

如果想重新分配热备盘(比如从机头A改到机头B),或者硬盘是从其他硬盘架上拆过来的。可以先将硬盘分配到空闲状态。

disk assign -f 0a.00.2 -s unowned

可能的错误信息

1“initialization failed”,初始化失败,硬盘不兼容,请仔细检查硬盘的型号。

2“Disk 0a.00.02 failed due to failure byte setting.”,字节设置失败,硬盘损坏,请换一块试试。

检查磁盘标签

通过“sysconfig –r”查看各磁盘组的状况,其中可查看到热备盘的状况:
新更换的磁盘标签为“bad label”,需将此盘转换为热备盘。

disk unfail -s 0a.00.2

系统会自动完成数据的重新部署,替换硬盘的工作至此完成。

参考文献

《NetApp断电加电操作流程》https://wenku.baidu.com/view/89512068bcd126fff6050b2d.html

《NetApp Commandline Cheatsheet》http://www.datadisk.co.uk/html_docs/netapp/netapp_cs.htm?LMCL=FPYqkk

《ONTAP》https://docs.netapp.com/ontap-9/topic/com.netapp.nav.rn/home.html?cp=0

《NetApp运维使用手册》https://cloud.tencent.com/developer/article/1501257

《NetApp培训讲义》http://www.doc88.com/p-9045147993292.html

《Disk replacement, init failed》https://community.netapp.com/t5/ONTAP-Discussions/Disk-replacement-init-failed-no-physical-data/m-p/128555#M27878

赞(0) 打赏
未经允许不得转载:521资源分享站 » NetApp 网络存储更换硬盘
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

521资源分享站

公众号购物返利优惠券

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏