分類:企業級儲存

從48小時搶救150億交易資料談LSI metadata分析

前言 : 這案例發生在 2008 左右 其架構應該為 IBM AIXserver再以FC連結DS4300.原文金額為RMB.標題直接換算成NT. 轉載文 以前總聽說老大們遇到DOWN機的事情怎樣怎樣,多麼急迫怎樣怎樣,但卻一直沒有感覺,總以為老大們言過其實。但是前不久一次真實的經歷,讓我終於對存儲工程師這一職業有了更深層的認識…… 起因 某月某日某時,我的一個哥們準備在新上的IBM DS4800盤陣上做RAID,剛剛做完時鐘同步,就看見客戶方所有的技術人員一陣風似的全部衝進了機房,帶頭的主管劈頭就是一句:你們幹什麼了?不待我們緩過神來,6、7個人就開始瘋狂的查找各自負責的部分。「趕快,趕快,查找原因!」 在過後的幾個小時情況調查的時候,我們終於知道,當時的盤陣上面存儲著該客戶35億的交易記錄和10條要人命的信息!然而,當我哥們完成時鐘同步的操作後,盤陣上的所有Volumn Group全部不見! 噩夢開始,35億交易記錄不翼而飛 只見客戶方6、7個人分別查找各自的原因,資料庫配置,光纖交換機,網絡,主機上的應用,甚至電源、機櫃都一一仔細檢查過,統統沒有問題。於是,所有人的目光都轉向了我們:你們到底做了什麼? 我們一下子也沒回過神:「只是,只是在還沒有使用的盤陣上做了時鐘同步,怎麼會和生產系統扯上關係?」 大家的目光隨即投向了連接KVM和盤陣的HUB。咦?上邊怎麼還有兩根線纜?那麼我們現在操作的這兩根線纜是?……生產系統盤陣上的!而且使用的是默認IP!!.....我的天!我們前面的操作是做在哪裡了啊?為什麼沒有出現IP衝突? 這時我們才意識到我們犯了什麼樣的錯誤:我們將KVM連在了生產系統的HUB上,對客戶新上的盤陣DS4800和原有生產系統上的盤陣DS4300同時做了一個DEMO,並進行了時鐘同步,於是,所有的Volumn Group掉下去了(掉線),生產停止了…… 四處支援,各路神仙愛莫能助 搞清楚狀況後,已經2個小時過去了。客戶方的人也不再理我們,所有的人開始打電話,尋求技術支持。在此後的4個小時中,分別有來自各方的支持陸續趕到,其中包括原設備維護廠商,新設備廠商、總代。以及陸續到來的7位IBM的工程師。我哥們至少20次的向各路神仙說明故障原因,客戶方也不停的展示目前盤陣的狀況,但事情仍然陷入僵局…… 在我們感嘆客戶方主管巨大能力的同時,也被打入冷宮了,被安排在一個辦公室裡不能出來,更別說進機房。還好客戶方還允許我們繼續找人支持和打800報修,所以我也有機會看了一眼客戶受重創後的盤陣,除了ROOTVG,其他的全都沒了,就好像連在一個完全空白的新盤陣一樣,我當時那個汗啊! 回到辦公室繼續打800報修,提示音之後是長時間的廢話,我一遍一遍的報上姓名地址,說明情況,無論你磨破嘴皮,只有一個結果:除了產品硬件故障不能派人解決。我狂暈! ...

小型電腦資料恢復原理

常看資料恢復公司說明可以恢復小型電腦資料跟資料庫(AIX  HP-UX SPARC ) 但這是啥玩意. 這邊會說明資料恢復技術怎樣處理小型電腦資料庫損壞狀況.  小型電腦(小型機)最早代表多用戶、採用終端/主機模式的電腦,以現在狀況來講效能和價格介於PC伺服器和大型主機之間的高效能64位元電腦都稱小型電腦。 小型電腦通常用於關鍵IT服務,銀行 醫療 保險等非常重要系統. 小型電腦佔有率最高的作業系統AIX: AIX是IBM專有UNIX作業系統的商標名。名為先進互動執行系統(英語:Advanced Interactive executive)。 本來是訂為 Advanced IBM Unix,但是沒得到政府部門的允許。 早期版本還有支持x86,後期版本只支持Risc CPU硬體:IA 64, RS6000,Power 系列Server.目前也沒有任何模擬器. Risc 小型電腦還有HP UX ...

IBM M1215 oem 刷LSI 官方Firmware IT/IR更換方法(SAS 3008 12Gbps)

打電話去美超微原廠問題清了,他們說是 LSI 3108 這張卡,LSI原廠就是不支援 IT mode ,至於 dell or HP 他們為什麼會有 non-raid 功能,那是因為他們會自己修改韌體,換句話說,他們是用自己客製化的韌體....所以美超微的RAID卡沒辦法這樣用,因為美超微沒有特別去改韌體,原廠是什麼,他們用的就是什麼,結案。 他們工程師建議我跟業務商量換卡,換成LSI 3008 即可解決問題,他們業務服務態度很好,沒有過多的要求即答應換一張 LSI 3008卡 IT mode給我。另外美超微業務還特別提到了一個重要資訊分享給大家參考:關於LSI卡 it mode 與 ir mode ...

資料庫救援案例(一)加密病毒感染

這是OSSLab最近收到的案例 客戶的DB被勒索病毒加密.   看起來好像DB (MDF檔案)數據 沒有加密. 那該怎下手?先瞭解一下 SQL 資料庫結構 , MS 有專文介紹  MDF 基本單位為Page . Page 大小固定8KB.  Header 96 bytes   網站寫的有點含糊 Page 包含 : ...

分析Synology FS3017 企業級儲存降損Flash損耗分析理與淺談未來Flash檔案系統

Synology FlashStation FS3017  全SSD 企業級儲存設備有提到 他們有一個Raid F1 算法. 可將工作量以非平均的方式分配至各硬碟,藉此改善硬碟壽命同時耗盡的問題,進而提升儲存集區的使用彈性,並確保您的資料安全無虞 這邊群暉有白皮書講解Raid F1 工作原理 推測發現 1.這還是Raid 5 架構 2.原理是這樣 當資料寫入時候 ,除了寫入Sector  所在Stripe 塊有所變化.  同行的奇偶校驗XOR 塊(P)也一定會變化。 所以當對固定某顆SSD XOR ...