核心提示: 數(shù)據(jù)中心出現(xiàn)故障在所難免,事后經(jīng)過分析大部分根因都是人為因素導(dǎo)致,也就是人禍占據(jù)了所有故障原因的七成以上。一方面人們享受著自己設(shè)計的數(shù)據(jù)中心所能帶來的工作和生活上的便利,另一方面也在承受著成長的煩惱,不斷為自己的過失買單。其實不僅在數(shù)據(jù)中心領(lǐng)域,縱觀上下數(shù)百年歷史,很多災(zāi)難都來自于人禍。
數(shù)據(jù)中心出現(xiàn)故障在所難免,事后經(jīng)過分析大部分根因都是人為因素導(dǎo)致,也就是人禍占據(jù)了所有故障原因的七成以上。一方面人們享受著自己設(shè)計的數(shù)據(jù)中心所能帶來的工作和生活上的便利,另一方面也在承受著成長的煩惱,不斷為自己的過失買單。其實不僅在數(shù)據(jù)中心領(lǐng)域,縱觀上下數(shù)百年歷史,很多災(zāi)難都來自于人禍。劉少奇在回顧解放初三年困難時期歷史時,造成社會上到處鬧浮腫,餓死人,非正常死亡人口達數(shù)千萬的原因時,說“三分天災(zāi),七分人禍”,最終原因基本都是人禍。任何活動只要有人的參與,就不可避免地存在出現(xiàn)人為差錯的可能性,而機器出錯的概率要比人低得多。遠的不說,就在近期幾起重要的斷網(wǎng)事件都和人有關(guān)。2017年2月28日晚8點39分,百度移動端搜索發(fā)生故障,搜索請求無法顯示結(jié)果,至晚9點21分恢復(fù),歷時42分鐘。故障期間導(dǎo)致手機用戶上億次的搜索受到影響。事后,工信部立即緊急約談百度公司,了解相關(guān)情況,要求互聯(lián)網(wǎng)公司日后盡量防止類似問題再次發(fā)生。故障源自于軟件更新中存在BUG(漏洞),導(dǎo)致服務(wù)器停止服務(wù)。在數(shù)據(jù)中心里運行著大量的軟件系統(tǒng),不可避免存在軟件BUG,即使能夠達到CMM5級別的單位,其代碼缺陷率也不會低于千分之一,也就是一千行代碼里至少有一個BUG,那些擁有上千萬行代碼的軟件系統(tǒng),BUG量可想而知。當然,一般人不會惡意在這些軟件系統(tǒng)中增加BUG,大多是在無意識、經(jīng)驗不足、精力不集中等情況下造成的,但這就是人的因素導(dǎo)致的,說白了是人禍。這幾天,全球最大的公有云服務(wù)商亞馬遜的應(yīng)用服務(wù)出現(xiàn)持續(xù)數(shù)小時故障。故障起因是AWS S3(云存儲)團隊在進行調(diào)試時輸入了一條錯誤指令,本應(yīng)該將少部分的S3計費流程服務(wù)器移除,可是最終意外地移去了大量的服務(wù)器,這一服務(wù)水平協(xié)議違約可能造成數(shù)百萬乃至數(shù)千萬美元的損失,這又是一例嚴重的人為故障;叵肓藦2011年到現(xiàn)在亞馬遜出現(xiàn)了7次大規(guī)模的故障,大部分原因也都是來自人為。就在剛剛,微軟大量的Xbox、Skype和Outlook用戶抱怨他們的賬戶無法登錄,提示賬戶不存在,這又是一次影響全球的大規(guī)模登錄問題,雖然微軟還未公布原因,但已經(jīng)承認存在問題,說不定又是人為因素導(dǎo)致的。所以,一旦有人為參與較多的數(shù)據(jù)中心時,大多都不靠譜。
我們對比無人值守的數(shù)據(jù)中心和有人數(shù)據(jù)中心,不難發(fā)現(xiàn),雖無人值守數(shù)據(jù)中心擴容業(yè)務(wù),安裝設(shè)備時經(jīng)常人手不夠,但整體運行穩(wěn)定度要比有人的數(shù)據(jù)中心高得多,這些無人數(shù)據(jù)中心在首次業(yè)務(wù)上線之后,很少有人去修改或調(diào)整系統(tǒng)運行的各種參數(shù),讓數(shù)據(jù)中心自己運行,設(shè)備按照預(yù)定的程序指令運行,很少出錯。相反,在那些運維人力強大的數(shù)據(jù)中心,經(jīng)常遇到這樣那樣的故障,多和人為因素有關(guān)。不少數(shù)據(jù)中心已經(jīng)意識到了這一點,所以將數(shù)據(jù)中心的控制權(quán)放在技術(shù)實力最強的總部,輕易不做變更,如因業(yè)務(wù)部署需要做變更,變更手續(xù)和申請過程非常嚴格,經(jīng)常要經(jīng)過設(shè)備廠家的確認、實驗網(wǎng)模擬以及高層領(lǐng)導(dǎo)批準,再進行充分的方案討論,最終才能去實施,這樣數(shù)據(jù)中心的業(yè)務(wù)運行非常穩(wěn)定,少有出錯。很多數(shù)據(jù)中心很喜歡軟件定義數(shù)據(jù)中心,就是希望可以通過軟件來統(tǒng)一控制和管理整個數(shù)據(jù)中心,將所有的控制權(quán)集中,由少數(shù)幾個技術(shù)實力雄厚的老專家控制,避免其它人胡亂改一通,引發(fā)一些未知故障。再或者直接將控制權(quán)交由軟件,將人的操作和方案交給軟件設(shè)備來執(zhí)行,設(shè)備出錯的概率要比人小得多,由軟件自行管理整個數(shù)據(jù)中心,這樣不僅可以降低人力成本,還可以減少人為出錯的概率。
正所謂“成也蕭何,敗也蕭何”,人是數(shù)據(jù)中心活動中的最重要因素,沒有人的參與哪里來的數(shù)據(jù)中心,而偏偏人也同時給數(shù)據(jù)中心帶來成長的煩惱。要想擁有一個運營良好的數(shù)據(jù)中心,必須重視運行系統(tǒng)或與系統(tǒng)交互的人。如果數(shù)據(jù)中心能投入時間在員工技術(shù)水平、培訓(xùn)、維護和運營等方面做出謹慎決策,往往能夠避免多數(shù)災(zāi)難,讓數(shù)據(jù)中心長期穩(wěn)定運行。很多針對數(shù)據(jù)中心發(fā)起的攻擊,都利用了人為的安全意識缺失而系統(tǒng)被攻破的。比如:2011年3月索尼公司遭黑,引發(fā)史上最嚴重的消費者資料“泄露”事故,超過7000萬玩家的郵箱、密碼、信用卡號等資料遭竊取。泄露的原因是索尼負責(zé)信息安全的員工,他沒及時給跑著過期Apache Web server軟件的服務(wù)器打補丁,也沒有安裝防火墻,結(jié)果門戶大開,引狼入室,黑客輕而易舉地盜取了內(nèi)部數(shù)據(jù)。所以數(shù)據(jù)中心要通過有效的管理,規(guī)范的ITIL和IT服務(wù)實施,才能有效降低運維中的人為隱患。數(shù)據(jù)中心管理針對的重點應(yīng)是人,而不是設(shè)備。
不難看出,數(shù)據(jù)中心的故障大多源自于人禍。運行中的數(shù)據(jù)中心,應(yīng)減少人為參與的機會,要對人為行為進行充分的管理和評估!叭旨夹g(shù),七分管理”,大量的事實表明,數(shù)據(jù)中心的好與差評判標準都是由管理水平的高低所決定的,而管理主要就是針對運維人的。加強運維人員的管理,提升運維人員的技能水平,才能減少人為犯錯的機會,避免產(chǎn)生人禍。數(shù)據(jù)中心是一個非常復(fù)雜的IT系統(tǒng),難免會出現(xiàn)這樣那樣的問題,從而引發(fā)故障,若能夠通過有效管理減少其中人禍部分的因素,將能有效提升數(shù)據(jù)中心的運行穩(wěn)定性。
來源:中國IDC圈
石家莊服務(wù)器托管 石家莊服務(wù)器租用 石家莊機柜租用 石家莊機房 |