MirrorView容灾系统实施-XXX同城容灾项目
XXX同城容灾项目是国内第一个在CX系列存储上利用MirrorView软件的容灾项目,其环境信息如下:
? 主机系统:IBM AIX 4.3.3、Windows 2000、SGI
? 数据库系统:Oracle8i
? 存储系统:CX600
? 交换机:Brocade
? 容灾距离:18km,采用CISCO DWDM技术,分配两条FC通道
1. MirrorView实施过程
1) 连接两台CX600至同一个Navisphere管理控制台上(IP网络连接),并且配置该管理控制台可以同时管理两台CX600(需要两台CX600在同一个管理域内);
2) 在两台CX600之间建立可用的双向MirrorView连接,操作步骤如下:
从Enterprise Storage对话框中选择Storage标签,导航到需要管理MirrorView连接的存储系统上,选择Manage MirrorView Connections,则弹出对话框显示已经建立或可以建立MirrorView存储系统的名称,下列图表显示的是该对话框中存储系统的连接状态代表的含义;通过该对话框可以直观地创建MirrorView连接。
3) 如果primary LUN不存在,则依照CX600安装手册创建LUN。
4) 如果secondary LUN不存在,用鼠标右键点击primary LUN,在弹出菜单中选择Create Secondary Image LUN。secondary LUN可以是与primary LUN不同的RAID类型,但要保证block size相同。
5) 等待secondary LUN创建完成。
6) 如果使用write intent log[l1] 则按照下列步骤完成:
· 从Enterprise Storage对话框中选择Storage标签,导航到需要分配write intent log的存储系统上,选择Allocate Write Intent Log (如果write intent log已经分配,则该命令变成Deallocate Write Intent Log);
· 在Allocate Write Intent Log对话框中选择可用的两个LUN;
· 保存配置,关闭对话框。
7) 在管理控制台上,按下列步骤创建mirror:
· 从Enterprise Storage对话框中选择Storage标签,导航到需要管理MirrorView连接的存储系统上,选择Create Remote Mirror,则弹出对话框提示输入相关参数:
? Name
? Description
? Use of write intent log
? Minimum Required [l2]
? Quiesce threshold [l3]
· 按照如下步骤添加secondary image:
从Enterprise Storage对话框中选择Storage标签,用鼠标右键点击remote mirror图标,选择Add Secondary Image,弹出对话框输入参数:
? 要添加至remote mirror的名称
? 选择 secondary 存储系统的名称
? 选择LUN
? 选中Initial Sync Required将执行对secondary mirror完全同步
? Recovery Policy:在发生错误的情况下如何恢复secondary mirror image
– Automatic:只要primary image 检测到secondary mirror可以重新访问,执行自动恢复
– Manual:管理员手工执行恢复
? Synchronization Rate:针对secondary mirror image的同步写延迟 (low, medium, or high)
点击OK添加完成后在 remote mirror image图标下将增加 secondary image 图标。
· 选择Remote Mirror Property对话框可以得到remote mirror的属性
2. MirrorView故障处理
1) 如果主节点发生故障,Navisphere将会报告该故障。如果主节点的故障是灾难性的,则原有的管理控制台将不可用;此时需要在灾备节点设置一个新的管理控制台,并提升该灾备节点为主节点,并执行相应的恢复措施:
· SP故障
如果发生故障的SP为主节点镜像LUN的拥有者,MirrorView将会控制另一个SP接管该镜像LUN;如果主机端安装PowerPath等路径恢复/切换软件,镜像操作不会中断。此时,MirrorView将发送trespass指令至灾备节点,灾备节点的存储系统将进行SP切换,保证主备节点的SP对应关系 (SPA<->SPA, SPB<->.SPB)。如果主节点发生SP切换的时候secondary image处于fractured 状态,则secondary image将等待同步过程开始后再进行SP切换。
· Primary Image 故障
当primary image出现不可恢复故障,则需要提升secondary image为primary image,操作步骤如下:
? 确认出现故障的存储系统不是域的master;如果是,则需要指定另一个存储系统为master;
? 确认出现故障的存储系统不是portal;如果是,则删除该portal并配置另一个存储系统为portal;
? Promote a secondary image:
¨ 如果the primary image和secondary image可以互相通信,则提升secondary image将导致primary image 降为secondary image;
¨ 确认拥有secondary mirror image的存储系统可被管理;
¨ secondary image的状态必须为Consistent 或 In-Sync;
¨ 如果当前的primary image可被访问,在提升the secondary image之前将primary image从所以的Storage Groups中删除;
¨ 确认没有I/O操作在mirror中发生,包括主机访问和正在进行的同步;
¨ 从Enterprise Storage对话框中选择Storage标签,导航到secondary mirror image,选择Promote ;
? 添加该image至一个Storage Group,该方法参加CX600安装手册;
? 切断MirrorView连接;
? 从管理域中删除出现故障的存储系统。
· 从提升后的Secondary Image恢复
? 当提升secondary image后,MirrorView软件将分配一个新的mirror ID给提升后的image,以区别原先的mirror;
? 当primary image可以被访问后,用Navisphere Manager Force Destroy删除初始的镜像;
? 添加secondary image到一个新的mirror中,同步该mirror;
? 提升secondary image;
2) 如果主节点的故障是一般性的,此时只需要修复该故障并重新恢复镜像即可;
3) 如果灾备节点的存储系统出现故障,则主节点存储系统将fracture相应的remote mirror;如果灾备节点的存储系统的故障可以很快得到解决,则管理员可以重新对数据进行同步,恢复相应的镜像;
4) 任何时刻管理员想停止镜像,可以首先fracture,然后remove secondary images,然后destroy the primary images.
故障处理参照表:
1
3. 项目经验总结
? 利用MirrorView进行数据迁移对生产主机有一定的影响
– 安装软件需要SP重启,影响主机对存储的访问
– 即使主机端配有PowerPath,也需确认其功能正常
? 风险回避
– 由于该主机连接的存储类型不变,主机端的配置不需要大的改动,因此大大降低了项目实施的风险
– 项目的风险主要源于
? 存储软件的升级
? 主机系统在R1和R2间的切换
– 回避方法
? 需确认相关系统的兼容性
? 在成功切换前避免对R1存储的配置改动以确保可以回退
? 通过修改交换机的分区控制主机在不同存储间的访问
? 配置改动前的系统备份和参数文件备份
? 其它
– MirrorView可以与SnapView的Snapshot功能集成,但不能与Clone功能集成
– 如用户需要在不中断MirrorView的情况下,在R2端生成一份独立的物理拷贝,可以选用SANCopy技术
– MirrorView对R1写I/O的性能影响有一倍,对整体性能的影响取决于写I/O所占比率,一般在30%左右
[l1]write intent log is a record of changes that were made to the primary image but have not yet been written to all secondary images. This record is stored in persistent memory on a private LUN reserved for the mirroring software. If the primary storage system fails (not catastrophically), the optional write intent log can be used to quickly synchronize the secondary image(s) when the primary storage system becomes available. This eliminates the need for full synchronization of the secondary images, which can be a lengthy process on very large LUNs.
[l2]This is the number of secondary images required for the mirror to not enter the Attention state. In the Attention state a mirror will continue to operate. This state indicates that one of the secondary images has an issue that requires attention.
[l3]The time period after which, without I/O from the host, any secondary image in the Consistent state and not fractured is marked as being in the In-Sync state (the default is 60 seconds). An administrator can promote an in-sync secondary image to primary image with no synchronization action required, whereas promoting a consistent secondary image will require a full resynchronization of secondary images and may cause the loss of the latest acknowledged updates to the host. (This also applies if the secondary image is fractured.) Specifying a very small value (5 or less) may result in a marked drop in performance for that LUN.
评论