MTBF

MTBF

MTBF,即平均故障間隔時間,英文全稱是“Mean Time Between Failure”。是衡量一個產品(尤其是電器產品)的可靠性指標。單位為“小時”。它反映了產品的時間質量,是體現產品在規定時間內保持功能的一種能力。具體來說,是指相鄰兩次故障之間的平均工作時間,也稱為平均故障間隔。概括地說,產品故障少的就是可靠性高,產品的故障總數與壽命單位總數之比叫“故障率”(Failure rate)。它僅適用於可維修產品。同時也規定產品在總的使用階段累計工作時間與故障次數的比值為MTBF。磁碟陣列產品一般MTBF不能低於50000小時。

基本介紹

  • 中文名平均故障間隔時間
  • 外文名:Mean Time Between Failure
  • 簡稱:MTBF
  • 作用:衡量產品可靠性的指標
  • 單位:小時
  • 反映:產品的時間質量
計算方法,故障時間,由來,壽命,電腦的關係,可靠性,散熱效果,影響,計算,分析目的,

計算方法

失效時間是指上一次設備恢復正常狀態(圖中的up time)起,到設備此次失效那一刻(圖中的down time)之間間隔的時間。
MTBF值是產品設計時要考慮的重要參數,可靠度工程師或設計師經常使用各種不同的方法與標準來估計產品的MTBF值。相關標準包括MIL-HDBK-217F、Telcordia SR332、Siemens Norm、Fides或UTE C 80-810(RDF2000)等。不過這些方法估計到的值和實際的平均故障間隔仍有相當的差距。計算平均故障間隔的目的是為了找出設計中的薄弱環節。
MTBF的數學式表達
另外,在工程學上,常用希臘字母θ來表示MTBF,既有:
在機率論中,可用ƒ(t)形式的機率密度方程表示MTBF,既有:
MTBF
此處ƒ指的是直到下次失效經過時長的機率密度方程——滿足標準機率密度方程——
MTBF

故障時間

隨著伺服器的廣泛套用,對伺服器的可靠性提出了更高的要求。所謂“可靠性”,就是產品在規定條件下和規定時間內完成規定功能的能力;反之,產品或其一部分不能或將不能完成規定的功能是出故障。概括地說,產品故障少的就是可靠性高,產品的故障總數與壽命單位總數之比叫“故障率”(Failure rate),常用λ表示。例如正在運行中的100隻硬碟,一年之內出了2次故障,則每個硬碟的故障率為0.02次/年。當產品的壽命服從指數分布時,其故障率的倒數就叫做平均故障間隔時間(Mean Time Between Failures),簡稱MTBF。即:
MTBF=1/λ
筆者看到一款可用於伺服器的WD Caviar RE2 7200 RPM 硬碟,MTBF 高達 120萬小時,保修 5年。120萬小時約為137年,並不是說該種硬碟每隻均能工作137年不出故障。由MTBF=1/λ可知λ=1/MTBF=1/137年,即該硬碟的平均年故障率約為0.7%,一年內,平均1000隻硬碟有7隻會出故障。
下圖所示為著名的浴盆曲線,左邊斜線部分為早期故障率,其故障率一般較高且隨著時間推移很快下降。曲線中部為使用壽命期,其故障率一般很低且基本固定。最右部為耗損期,失效率急速升高。電子產品製造商一般通過測試、老煉、篩選等手段將早期故障儘量剔除,然後提供給客戶使用。當使用壽命期將盡,產品也即將進入故障高發期,需要報廢或更新換代了。

由來

右圖為浴盆曲線,那么浴盆曲線與產品壽命有什麼關係呢?
電子產品的壽命一般都符合浴盆曲線,可分為三個階段:
  1. 早夭期:由於設計,原材料,生產等可能出現的原因而導致一個較高失效率的階段,也稱失效率遞減階段,可通過環境應力篩選加以剔除,保證產品的可靠性。
  2. 穩定期:這一階段產品失效率近似一個常數,只有隨機失效產生,MTBF即要得到這一階段的壽命。
  3. 耗損期:硬體故障期,產品這時已達到設計壽命,進入報廢階段。
浴盆曲線浴盆曲線

壽命

明白了MTBF和“浴盆”曲線的基本概念,我們對評估產品的使用壽命有了一定的掌握。在合適工作條件下器件使用壽命期內的故障率很低。廣大電子愛好者都知道電子元器件的壽命,與工作溫度是有密切關係的。以電腦主機板上常用的也常出故障的電解電容器為例,其壽命會受到溫度的影響。因此,應儘可能使電容器在較低的溫度之下工作,如果電容器的實際工作溫度超過了其規格範圍,不僅其壽命會縮短,而且電容器會受到嚴重的損毀(例如電解液泄漏)。因此,在分析電腦主機板上電容器的工作溫度時,不僅要考慮機箱內整體環境溫度及電容器自身的發熱,還要考慮機箱內其他發熱元件的熱輻射(特別是CPU、穩壓器、電源供應器等)。
元器件瞬時失效浴盆曲線圖元器件瞬時失效浴盆曲線圖
根據測試,通常2.0G的CPU消耗功率達56.7W,生成溫度達70℃;而當頻率提高至3.0G時, CPU溫度往往超過90℃。在這樣的高溫烘烤下,主機板上的電容器壽命會發生什麼變化?
為簡化起見,不考慮紋波、頻率、ESR等因素,電容器的估計壽命可用下述公式表示:
其中,L0表示最高工作溫度下的壽命,Tmax表示最高工作溫度,Ta表示實際環境溫度。由此可見,如果環境溫度每升高10℃,電容器壽命將下降一倍!
由上圖右面的曲線可明顯看出,隨著電容器工作環境溫度的上升,其有效壽命急劇縮短。其中有效壽命(Useful life)是指該種電容器達到給定故障率的時間。

電腦的關係

可靠性

電源供應器對電腦來說,重要性不言而喻。影響電源供應器壽命的因素很多,如負載大小、振動和周邊的環境溫度等。其中,環境溫度很重要,所以選擇合適的風扇,排放出由電源供應器內部的熱量非常關鍵。電源供應器的MTBF,在很大程度上是由其內部的電解電容器MTBF值所決定的。因隨著溫度的上升,電容器的壽命急劇縮短,所以電源供應器的工作溫度如能得到降低,其壽命就會更長一些。
當評價電源供應器所標稱壽命時,電源供應器是否運行在額定的滿負載狀況是另一重要考慮因素。如果電源供應器裝有合適的散熱器而散熱風扇風量足夠大,在低於滿負載的情況下連續工作,電源供應器就能有更長的壽命。一般電腦電源供應器壽命按照3-5年計算元件的可能失效周期,MTBF在80,000-100,000小時之間。
不同的電源供應器廠家,其產品設計、用料也往往差別很大,工作壽命自然不同。
除電源供應器外,硬碟的溫度也不可小視。硬碟動不動就7200rpm-15000rpm,想想看硬碟內的馬達每天轉24小時,平均工作溫度在四、五十度的高熱是免不了。筆者曾測量過一台散熱不夠好的伺服器硬碟,溫度超過40℃。對硬碟來說,如果機殼內部的溫度降低了,這將意味著減少主軸馬達液態軸承的軸承潤滑劑以及磁碟潤滑劑的蒸發,這將大大降低其損壞的機率。據Seagate公司公開的某型號硬碟數據,在34℃時的MTBF為150,000小時,但在25℃時,會達到230,000小時。

散熱效果

為降低硬碟溫度,可增加散熱風扇。市面上是有賣硬碟專用的散熱模組,有的則是一顆風扇再加上一塊硬碟大小的鋁製散熱片,其實沒有必要這么複雜。
如採用小型風鼓(BLOWER),風量增加,散熱效果更好。但是,增加風扇或風鼓一定要考慮振動的問題。要知道風扇較高的轉速才能達到一定的風量,但如採用較劣質的風扇,轉速雖高,但壽命短且振動厲害,對硬碟壽命會帶來不利影響,安裝硬碟時加吸震軟墊、機箱機殼底部的吸震片都有一定效用。
優質的電源供應器當然要搭配高品質的風扇,如HG2-6400P選用的是NMB鋼珠軸承風扇,比傳統油封軸承風扇壽命高出2倍。這款電源供應器還加入了風扇轉速控制線路,可以根據電源內部的溫度調節風扇轉速,在延長使用壽命的同時,也更好的控制了風扇噪音和震動。

影響

如何保養和維護好伺服器,最大限度的延長其使用壽命,是大家都非常關心的話題。灰塵對伺服器構成的威脅不容忽視。按筆者的電子產品維修經驗,在灰塵比較大的環境中工作,由於PCB吸附灰塵,而灰塵的沉積會影響電子元器件的熱量散發,這將導致元件溫度上升,進而出現熱穩定性下降甚至產生漏電,嚴重時導致燒毀。另外,灰塵也會吸收水分,腐蝕電子線路,造成一些莫名其妙的短路問題。所以灰塵體積雖小,但對伺服器的危害不可低估。
儘管伺服器機房有相對較好的環境,但灰塵仍會不斷累積。所以,有必要定期進行清理,可使用上圖美國生產CRC牌防塵噴劑、也可用有防靜電(ESD)功能的小毛刷小心進行清掃,或使用吹風球清潔灰塵,減少出故障的機率。在清理機箱內部的灰塵時,切記斷開電源,小心操作,特別是面板進風口和電源(排風口)的附近,以及板卡的插接部位灰塵最多。清理電源里的灰塵最好將電源供應器拆下,用防塵噴劑、吹氣球仔細清掃乾淨後再裝回。

計算

設有一個可修復的產品在使用過程中,總計發生過N0次故障,每次故障後經過修復又和新的一樣繼續投入使用,其工作時間分別為:T0,T1。那么產品的平均故障間隔時間,也就是平均壽命為Q為:(T0+T1)/N0。
通常,我們在產品的手冊或包裝上能夠看到這個MTBF值,如8000小時,2萬小時,那么,MTBF的數值是怎樣算出來的呢,假設一台電腦的MTBF 為3萬小時,是不是把這台電腦連續運行3萬小時檢測出來的呢?答案是否定的,如果是那樣的話,我們有那么多產品要用幾十年都檢測不完的。其實,關於 MTBF值的計算方法,目前最通用的權威性標準是MIL-HDBK-217、GJB/Z299B和Bellcore,分別用於軍工產品和民用產品。其中,MIL-HDBK-217是由美國國防部可靠性分析中心及Rome實驗室提出並成為行業標準,專門用於軍工產品MTBF值計算,GJB/Z299B是我國軍用標準;而Bellcore是由AT&TBell實驗室提出並成為商用電子產品MTBF值計算的行業標準。
MTBF計算中主要考慮的是產品中每個器件的失效率。但由於器件在不同的環境、不同的使用條件下其失效率會有很大的區別,例如,同一產品在不同的環境下,如在實驗室和海洋平台上,其可靠性值肯定是不同的;又如一個額定電壓為16V的電容在實際電壓為25V和5V下的失效率肯定是不同的。所以,在計算可靠性指標時,必須考慮上述多種因素。所有上述這些因素,幾乎無法通過人工進行計算,但藉助於軟體如MTBFcal軟體和其龐大的參數庫,我們就能夠輕鬆的得出MTBF值。

分析目的

1)針對高頻率故障零件的重點對策及零件壽命延長的技術改造依據。
2)進行零件壽命周期的推算及最佳維修計畫編制。
3)有關點檢對象、項目的選擇與點檢基準的設定、改善。
4)用於指導內外部維修工作分配。根據公司內設備修復能力的評價,以設備類型、作業種類的不同來決定內部分別承擔工作的維修質量與設備效率方面的風險,作為維修外包的重要參考。
5)設定備品備件基準。機械、電氣零件的各儲備項目及基本庫存數量,應根據MTBF的記錄分析來判斷,使其庫存水平達到最經濟的狀況。
6)作為選擇維修技術方法改善重點的參考依據。為了提高設備開動率,必須縮短與設備停機相關的長時間維修作業及工程調整、切換的時間。因此,有必要對維護作業方法進行檢驗,而其檢驗的項目、優先順序的選擇等基本情況,均需要依據MTBF的分析記錄表。
7)用於設備對象設定預估運行時間標準,及其維護作業的選定與維護時間標準的研究。維修計畫預估時間標準的設定及維護作業的選定,必須考慮設備維護重複周期或標準時間值與實際維護時間的差異及相應維護作業特性等因素,因此,MTBF分析表是非常必要的。
8)圖樣整理及重新選定重點設備或零件時的參考。MTBF的分析記錄表所記錄的設備零件改造項目或摩擦劣化等信息,以及設備圖樣修改或前期製作等情況,通過能經常作分析檢驗及重要性排序管理,可以使工程圖樣管理變得更容易。
9)運行操作標準的設定、修訂及決定設備維護業務的責任分派。
10)提供設備的可靠性、可維修性設計的技術資料。維護技術最重要的是以MTBF分析表為基礎,收集有關設備的可靠性、可維修性設計的技術信息,以便提供給設計部門在設計設備時參考。

相關詞條

熱門詞條

聯絡我們