各廠牌的伺服器都有自己的特色與主打應用。例如有些是注重運算、有些是強化儲存,有些則是優化網路,當然也有多項強化的融合性應用產品,就看企業所需與架構來做選擇。

以這次客戶送來的一款IBM Storwize V7000伺服器,從產品系列名稱來看,就可以得知其主打應用就是儲存。Storwize系列為IBM新一代的儲存伺服器,提供更親和的使用介面,讓IT人員輕鬆規劃與管理SAN (儲存區域網路)。IBM這款機器算是相對高C/P的機種,機器背後具備iSCSI光纖線路,並可串連其他儲存裝置建構出巨量級的SAN,提供企業廣大的儲存應用空間,深獲不少企業採用。

 


▲ IBM Storwize的管理介面

機器不穩、硬碟壞軌,資料救出

由於IBM這款儲存伺服器的組態方式與其他機器不同,因此在備援架構上得特別注意。這次客人送來的機器比較棘手,其背板的Controller (控制器)不穩定,Storage沒有做HA (高可用性),再加上硬碟長久使用下來,內部有壞軌,使得整台儲存設備出問題。

 


▲ Storwize的MDisk架構範例

由於IBM Storwize採用上述特殊的儲存架構,因此在資料救援方面,也得透過特殊的方式來進行。其MDisk採用Image-Mode的模式,可從RAID陣列碟的系統中,挑出不同的LUN來建構Volume,容量大小無法調整,其規劃出來的MDisk可讓其他機器透過iSCSI來掛載。

從圖可看到此模式比單純RAID的重組來說更複雜,加上硬體本身有故障,徒增不少資料救援上的困難度。不過,OSSLab仍在客戶希望能儘快救出資料的需求下,克服各種困難,將硬碟修復,並重組RAID陣列與MDisk架構,順利將資料救出。

Storwize資料救援方法

OSSLab採用的救援方式/查驗方式,簡單來說,可以分成四個步驟:

1. 因是急件,為加速時間,原始硬碟就不先做鏡像

    在進行救援之前,本應先針對硬碟做鏡像,但礙於時間急迫,因此就跳過鏡像步驟,直接進入RAID架構重組。

 

2. RAID塊組合起來 (以script來達成)

    由於沒有任何現成的工具可以組好RAID,因此必須以script的方式,找出MDisk的Volume對應方式,將RAID模式組合並建構完成,將RAID碟做成映像檔後,即可進入資料救援步驟。


▲ 嘗試找出對應的Volume,並組合成RAID,將RAID碟dump成映像檔

 

3. RAID成功mount並將ERP檔案導出來

    把RAID Volume磁碟區掛載之後,接下來就是把資料導出來,任務是優先把ERP資料救出來,此時需要做各種檔案名稱與內容比對,以確認救出的資料是正確的。

 

4. 以Oracle dbv檢驗資料庫是否完整

    至於dbf (Oracle DataBase Format)資料庫檔案,可以透過Oracle的DBV (DBVerify)命令列工具來做檔案內容一致性檢查,從多個dbf檔案中,挑選出沒問題的檔案為主。

▲ 使用DBV工具查驗dbf資料庫檔案內容完整性

 

經由上述的多次測試、導出與查驗,終於救出MDisk格式Volume裡面的重要檔案,交付給客戶,成功結案。

 

Thx Chang

Author Thx Chang

More posts by Thx Chang

Leave a Reply