發表于:2011-07-14 00:00:00來源:網易科技報道人氣:3086
11日下(xià)午2點到12日下(xià)午4點,藝龍旅遊網出現了持續的訪問故障。據了解,該事件最初是EMC存儲設備出現故障,而由于藝龍網的存儲結構不完善導緻長時間無法修複。
此次事件在互聯網行業的系統架構領域引發了很多的讨論,藝龍因爲這次宕機事件,其網站服務和呼叫中(zhōng)心業務也無法進行,據一(yī)些媒體(tǐ)計算,藝龍網這次直接損失超過14.7萬營業收入,而其對客戶造成的潛在影響無法估計。
EMC存儲出現問題引發連鎖反應
11日下(xià)午,不斷有網友反應藝龍網訪問出現錯誤,很快,官方就出現了“系統故障,正在修複中(zhōng)……”的提示。對于這家以網站和呼叫中(zhōng)心爲主要經營窗口的企業來說,此故障直接影響到業務運營。
12日早上8點,藝龍CEO崔廣福表示,藝龍的存儲系統出現故障,導緻全部服務中(zhōng)斷,崔廣福稱藝龍和EMC的工(gōng)程師已搶修18個小(xiǎo)時。
至此,不少目光集中(zhōng)在EMC公司上,藝龍網使用的存儲産品由EMC提供,據接近現場人士透露,此次宕機也的确是存儲硬件出現問題,導緻數據庫挂機,系統恢複需要較長時間造成。
12日下(xià)午呼叫中(zhōng)心恢複機票服務,網站服務等在4點開(kāi)始恢複,到18點全部業務恢複運營。
備份架構不完善導緻維修時間較長
對于藝龍網這次出現問題的原因一(yī)時衆說紛纭,在不少人認爲EMC硬件出現問題時,一(yī)些企業技術架構人員(yuán)開(kāi)始聲援EMC。
丁香園網站CTO馮大(dà)輝在微博表示,EMC的産品不會持續到幾十個小(xiǎo)時恢複不了,而一(yī)位網友也提到,“做爲EMC的競争對手也不得不說,這不隻是硬件的問題”。
IT服務公司中(zhōng)達金橋的孫巍表示,他在12日到現場參與系統恢複。從他的複述中(zhōng)得知(zhī),EMC存儲硬件出現故障引發了整個事件,而由于藝龍對數據庫的備份不足,存儲層沒有災備方案,導緻系統恢複緩慢(màn),雖然硬件很快恢複正常,系統仍然無法工(gōng)作。
據深入介紹,企業在運營平台的系統設備架構中(zhōng),爲了應對突發硬件、軟件故障,一(yī)般需要對各個層級的系統進行備份,比如在服務器端使用雙機熱備,在存儲層完成災備,在軟件層做冗餘工(gōng)作。這樣任何一(yī)個環節出現問題都可以及時找到替代。
而在藝龍的事件中(zhōng),藝龍的存儲架構隻預備了高性能架構的集群備份,災備的準備依賴唯一(yī)的存儲硬件,軟件層也缺少冗餘準備,這樣存儲出現問題,事先準備的災備準備也就不起作用。
“把所有雞蛋都放(fàng)在一(yī)個籃子裏,籃子出了問題,雞蛋就全碎了。”孫巍這麽形容。
存儲行業的一(yī)些廠商(shāng)人士在微博上紛紛表示,硬件不可能保證100%數據安全,要硬件保證不出現問題是不可能的,企業需要在架構上減少硬件出錯對企業運營的影響。
到截稿爲止,藝龍和EMC并沒有回複關于此事技術過程的疑問。
藝龍再次停機升級或爲加強存儲系統
14日淩晨,藝龍網再次宣布停止運營7個小(xiǎo)時,以實現系統升級。此前崔廣福在微博上發出“英雄帖”,邀請咨詢師、方案服務提供商(shāng)、專家等爲藝龍數據中(zhōng)心系統構架、災備方案及運維管理會診。這也說明藝龍對此次事件的重視。
業界人士認爲,對于一(yī)個在線服務提供商(shāng),時刻在線和穩定性成爲消費(fèi)者一(yī)種信賴和依靠,而出現系統完全停止服務将對客戶感受造成較大(dà)的影響。
據存儲技術人士透露,主要的容災技術結構已經完善,各個單位采用不同的架構主要原因還是因爲成本問題。
也有人認爲,這次的事件對于災備行業來說将是一(yī)次促進,企業和政府單位在認識到意外(wài)發生(shēng)的結果後會加大(dà)數據系統的投入。(王傑聰)