故障樹手冊(Fault Tree handbook)(2)

第二章 歸納法概論

2.1 概述

上一章我們定義了兩種系統分析的方法——歸納法和演繹法。演繹法就是本書的主要講述的故障樹分析法。本章將主要討論歸納法。

我們用一整章的內容對歸納法進行討論,主要有兩方面的原因,首先,這個方法提供了對故障樹分析非常有用和有啓發性的比較。其次,很多系統(可能是絕大多數),故障樹分析方法的費效比(投入與最終改進)是沒有保證的,歸納方法提供了一種有效的、系統的方法來識別和糾正不需要的或危險的情況。因此,故障樹分析人員熟悉歸納法是非常有必要的。

在日常應用中,歸納法提供了對於“如果……會發生什麼”這類問題的解答方式,更正式地說,這個過程包括假設一個或多個組件的特定存在狀態,並進行分析以確定該條件對系統的影響。在可靠性研究中,“存在的狀態”是一種故障。在其他領域,情況未必如此。

對於表現出任何程度複雜性的系統(即對於大多數系統),試圖驗證所有可能的系統危害或所有可能的組件故障模式(單獨或組合)變得完全不可能。由於這個原因,我們將要討論的歸納方法通常是受時間、金錢和人力的限制。將所有情況都分析到是負擔不起的。

2.2 部件計數方法

一種可能是最簡單和最保守(悲觀的)的看法是,我們可以對一個系統做出假設,任何單個組件的故障都會導致整個系統的故障。在這個假設下,得到系統失效概率的上界特別簡單。我們簡單地列出所有組件及其估計的故障概率。然後將各個部分的概率相加,得出系統失效概率的上限。這個過程如下所示:

在這裏插入圖片描述

在這裏,F代表系統的故障概率,等於fA+fB+....f_A+f_B+....。根據特定的應用,故障概率可以是故障率、不可靠性或不可用性(這些更具體的術語將在後面介紹)。

對於特定的系統,部件計數技術可以提供對系統故障概率的非常悲觀的估計,而悲觀的程度通常是無法量化的。對於特定的系統,部件計數技術可以提供對系統故障概率的非常悲觀的估計,而悲觀的程度通常是無法量化的。“部件計數”技術是保守的,因爲如果存在關鍵組件,它們通常會出現冗餘,因此沒有單個故障對系統來說是災難性的。此外,組件通常會以幾種不同的方式偏離其正常工作模式,而這些故障模式通常不會對系統運行產生同樣有害的影響。然而,讓我們看看在圖II-1中所示的兩個放大器的簡單並行配置下,零件計數方法會產生什麼結果。

在這裏插入圖片描述

設放大器A的故障概率fAf_A10310^{-3},放大器B的故障概率fBf_B10310^{-3}。因爲並行配置意味着系統故障只發生在兩個放大器同時失效的條件下,並且假設這兩個放大器彼此獨立,那麼該系統故障的概率就爲103×103=10610^{-3}\times 10^{-3} = 10^{-6}。根據部件計數方法,組件概率等於簡單的概率相加,因此“部件計數系統故障概率”爲103+103=2×10310^{-3}+10^{-3}=2 \times 10^{-3},比10610^{-6}要高的多。

因此,如果系統是冗餘的,部件計數法可以得到保守數量級的結果。當系統確實存在單次故障時,採用部件計數法可以得到較爲準確的結果。因爲所有組件都被視爲單個故障(任何單個組件故障都會導致系統故障),所以故障之間的任何依賴關係都被覆蓋,即,零件計數方法涵蓋了由於共同原因造成的多個組件故障。最後,零件計數法也可用於敏感性研究;如果系統或子系統的故障概率沒有影響或沒有使用部件計數方法,那麼它將不會影響或沒有使用更精確的分析方法。

2.3 故障模式和效果分析(Failure Mode and Effect Analysis, FMEA)

雖然部件計數法非常簡單,但是其分析結果往往過於保守,所以人們設計了很多更具體的技術方法。我們首先介紹故障模式和效果分析方法,我們先回頭看上次的圖II-1。

我們認識到該放大器系統會以若干種不同的方式失效,所以我們的首要任務是對各類失效模式進行定義。除了傳統意義上的“開路”和“短路”失效之外,在我們的分析中還存在28種另外的模式。任何放大器的短路都是相對嚴重的故障模式,它經常會造成系統故障。我們現在擬製一個表格,它具備如下的信息:

  1. 部件設計(component desination)
  2. 故障的概率(Failure Probablity)(失效和故障的機率是一些使用上的特性)
  3. 部件故障模式(Failure Mode)
  4. 每種故障模式的比例(% Failures by Mode)
  5. 針對對系統總體的作用進行分類(Effects on over system)(最簡單的分類是“關鍵”和“非關鍵”)

針對該冗餘放大系統的結果如表II-1所示。

在這裏插入圖片描述

根據我們之前對於該放大器的使用經驗,我們估計90%的放大器失效是因爲“開路”模式,5%是因爲“短路”模式,“其他”模式5%。我們知道不論何時放大器中的任何一個發生短路,則都會引起系統故障,所以我們把該故障的關鍵等級定義爲“關鍵”,這表示該故障會導致總系統失效。另一方面,任何一個放大器發生“開路”故障,因爲系統的並行設計,系統總體運行並不會受到影響。那麼其他28種模式的關鍵程度是什麼?在這個例子中,我們是保守的,我們認爲他們都是關鍵的,它們任何一個發生都會導致系統出現故障。表中“Critical”那一列的數字是由第四列中合適的百分比乘以第二列中的10310^{-3}得到的。

根據這個表格,我們能更精確的計算單一故障原因下的系統失效概率,現在只考慮那些關鍵的故障模式。將表示關鍵的列(第五列)相加,我們能獲得系統故障概率爲5×105+5×105+5×105+5×105=2×1045 \times 10^{-5}+ 5 \times 10^{-5}+ 5 \times 10^{-5}+ 5 \times 10^{-5}=2 \times 10^{-4}。這個結果與部件計數方法得到的10310^{-3}相比不是那麼保守了,部件計數的方法沒有區分這些關鍵失效模式。這兩種方法得到的結果差距會非常大,如同我們的例子一樣,如果關鍵的故障模式在總的失效模式中佔比較小,或許會有數量級的差距。

在FMEA(以及它的變量)中,我們能定義和合理的確認那些具備“非關鍵”作用的部件故障,但是我們可以分析考慮的的部件狀態也是很有限的。方法的保守性要求未定的故障模式和不確定的效果都被看作是“關鍵”的。分析的目標是去定義單獨的故障模式,以及去量化這些模式;不需要爲這些目的做更多不必要的分析。

2.4 故障模式效果和關鍵性分析(Failure Mode Effect and Criticality Analysis, FMECA)

故障模式效果和關鍵性分析(FMECA),本質上類似於FMEA分析,但對失效的關鍵性進行更詳細的分析,並描述了限制此類失效可能性的保證和控制。雖然FMECA分析不是發現危害的最理想的手段,但是卻常常用來系統安全性分析的案例中。該方法有四個基本原則:

  1. 故障定義(Fault Identification)
  2. 故障的潛在作用(Potential Effects of the Fault)
  3. 現有的或計劃的補償和/或控制(Existing or Projected Compensation and/or Control)
  4. 探索結果的摘要(Summary of Findings)

這四個方面基本體現了FMECA方法的四列內容。第一列定義了可能的危害情況。第二列解釋了爲什麼該情況是一個問題。第三列描述了爲了補償或控制該情況我們需要做什麼。第四列表明瞭這個情況是否可控或者未來需要採取什麼步驟。

在本章的內容中,讀者應該注意到在所有這些歸納技巧中或多或少存在的一個最危險的陷阱——表格中的潛在錯誤。如果項目只是簡單地填寫表格,而不是進行適當的分析,那麼這種做法將完全是徒勞的。因爲這個原因。對分析師來說,最好不要把自己限制在任何事先準備好的形式主義中。另一點:如果系統非常複雜,那麼一個分析師認爲只有他本人才能對所有的系統故障及其對系統的影響進行正確和全面的調查,這是非常魯莽的。這些技術需要一個良好協調的團隊方法。

2.5 預先危險性分析(Preliminary Hazard Analysis, PHA)

到目前爲止描述的技術大多是針對系統的,例如系統操作中的故障影響。這一章的主題是預先危險性分析,這是一個將工作環境中的“人”作用於系統,對潛在危害進行分析方法。

本節的主題是預先危險性分析(PHA),這是一種評估系統對工廠人員和其他人造成的潛在危害的方法。PHA的目標是確認系統內部固有的潛在危險條件,並確定可能出現的潛在事故的重要性或關鍵性。應儘早在產品開發階段進行PHA研究。這將允許設計和程序相關的安全需求在早期進行考慮和開發,以對這些危險的情形進行控制,從而消除昂貴的後期設計變更。

PHA的第一步是定義潛在的危險元素或系統中的部件。該過程能借助於工程經驗、工程判斷的實踐以及多次使用和改進後的大量的檢查表來促進。PHA的第二步是對那些有可能從特殊的危險轉化成潛在事故的事件進行定義。然後評估潛在事故的嚴重性以決定是否採用預防措施。

人們也已經開發出各列內容的格式,以幫助PHA的執行過程,我們列出了或許是最簡單的一種:

  1. 第一列 —— 部件/子系統以及危險模式(Component/subsystem and hazard modes)
  2. 第二列 —— 可能的效果(Possible effects)
  3. 第三列 —— 補償和控制(Compensation and control)
  4. 第四列 —— 調查結果和備註(Findings and remarks)

2.6 故障危害分析(Fault Hazard Analysis,FHA)

另一個方法,故障危害分析(FHA),它的使用場景比較特殊,它用於包含多個組織的工程,其中一個組織用於整合。該技術用於跨組織之間的界面銜接的故障有特別的作用。它最初在Minuteman III項目中起到積極作用。

一個標準的FHA表格如下所示:

  1. 第一列 —— 部件定義
  2. 第二列 —— 故障概率
  3. 第三列 —— 故障模式(所有可能的模式的定義)
  4. 第四列 —— 模式中故障的百分比
  5. 第五列 —— 故障的效果(跟蹤到一些相關的接口)
  6. 第六列 —— 上有部件的定義,這些部件可以命令或初始化故障問題
  7. 第七列 —— 能導致次要故障的因素(包括臨界等級)。該列應該包含一個有關針對敏感部件的運作的或環境的變量清單。
  8. 第八列 —— 附註。

FHA答題上和FMEA和FMECA接近,但是多了第六列和第七列的額外信息。

在後邊的章節我們可以看到,第六列和第七列在故障樹分析上有重要的作用。

2.7 雙故障矩陣(DFM)

以前的技術關注的是單個故障的影響。考慮雙失效影響的一種歸納方法是雙失效矩陣(DFM);它只適用於相對不復雜的系統。爲了說明它的用途,我們必須首先討論錯誤分類的各種方法。以MIL STD 882 標準的基本分類如下表所示:

在這裏插入圖片描述

這樣對系統做出了更完整的定義:

  1. 可忽略不計(Negligible)—— 對系統沒有影響的功能損失。
  2. 邊際(Marginal) —— 該故障會在一定程度上降低系統的性能,但不會導致系統不可用;例如,丟失兩個冗餘泵中的一個,其中任何一個都可以執行所需的功能。
  3. 臨界(Critical) —— 此故障將完全降低系統性能;例如,使安全系統不可用的組件的丟失。
  4. 災難性(Catastrophic)—— 這一斷層將產生嚴重後果,可能造成傷害或死亡;例如,災難性的壓力容器故障。

分類將取決於先前假定存在的條件,並且可以隨着假定條件的變化而變化。例如,假設一個泵發生故障,那麼第二個冗餘泵的故障就是臨界故障。

上述粗略的分類可以通過多種方式進行細化。例如,在NERYA項目中,定義了六個故障類別,如表II-3所示。

Table II-3 NERVA項目的故障分類

故障分類 系統方面的表現
I 可忽略的
IIA 第二個錯誤事件導致過度到分類III(關鍵的)
IIB 第二個錯誤事件導致過度到分類IV(災難的)
IIC 一個系統安全問題,它的效果取決於它所處的狀況(例如備用現場電源故障,只要保持主要的非現場電源服務是開啓的就不會出現問題
III 關鍵的故障,會導致任務取消
IV 災難性的故障

爲了描述DFM的概念,參考圖II-2的的簡單的子系統。在該模型中,閥門模塊只能進行全開或全閉兩種操作,然而可控的比例閥門還可以進行部分的開發或關閉。

在這裏插入圖片描述

讓我們定義兩種故障狀態,並對它們進行分類:

故障狀態 分類
需要時沒有流動 4
流動無法關閉 3

我們開始考慮所有可能的部件故障和它們的分類。舉個例子,如果閥門模塊A(BVA)無法打開,我們將其歸類爲分類IIA,因爲如果控制閥門A(CVA)也同樣無法打開,我們將級聯進入分類III。如果BVA無法閉合我們將分類IIB,因爲如果BVB或CVB也無法閉合,我們將級聯進入分類IV。這種類型的分析在表II-4所示的雙故障矩陣中很方便地進行了系統化。

爲了便於說明,我們填寫了整個矩陣;對於一階分析,我們只關注主對角線項,即單次失效狀態。請注意,如果BVA打開失敗,那麼只有一種方法可以讓第二次失敗將我們級聯到第三類;也就是說,CVA也必須失敗才能打開。相反,如果BVA關閉失敗,如果BVB或CVB也關閉失敗,我們可以級聯到IV類,這就是爲什麼表II-4給出了“兩種方法”的原因。類似的考慮也適用於CVA、BVB和CVB的單次故障,這些重要的附加信息已經顯示在矩陣的主對角線單元格中。

現在只關注單個故障,我們可以進行如下表所示的危險類別計數:

危險分類 發生的方式數
IIA 4
IIB 8

在這裏插入圖片描述

如何使用這些信息?一個辦法是對如何控制或防範這些危險類別的描述和隨後的審查。另一個應用是比較圖II-2中顯示的閥門配置和另一種設計,例如圖II-3中顯示的配置:

在這裏插入圖片描述

爲了敘述簡單我們用配置I指代圖II-2的系統,用配置II指代圖II-3的系統。在配置II中,我們定義了和配置I同樣的系統故障狀態;換句話說,“當需要時沒有流動”是分類IV,“當關閉時流動了”是分類III。我們現在能提出這樣的問題:“就我們所定義的各種危險類別的相對數量而言,哪種配置更可取?”配置II的雙故障矩陣如表II-5所示。

在這裏插入圖片描述

通過比較這兩種配置,我們可以看到,從級聯到第III類的角度來看,它們是相同的,但是第II類配置有大約一半的方法可以級聯到第IV類。所以,根據這種標準,配置II是更好的設計。如果差異不是很明顯,也可以使用更正式的分析方法來獲取更多信息(這些方法將在後面的部分中討論)。

2.8 成功路徑模式

雖然我們一直在研究“失效”,我們也可以等效的討論“成功”來替代“失效”。我們給出了一個簡單的等效案例,而後繼續我們的失效理論。

考慮在圖II-4中兩個並聯的閥門配置。該系統的分析可以通過單一故障(多因素故障概率被認爲是可以忽略的)或考慮“成功路徑”。讓我們先從前者開始。

系統需求如下所示:

  1. 操作包含兩個階段
  2. 每個階段中至少一個閥門必須打開
  3. 每個階段最後兩個閥門必須關閉

兩個相關的部件故障模式是:在需要時閥門無法打開,以及在需要時閥門無法關閉。爲了分析目的,讓我們做如下的假設:

P()=1×104P(閥門沒打開) = 1 \times 10^{-4}(每階段)
P()=2×104P(閥門沒關閉) = 2 \times 10^{-4}(每階段)

其中PP表示概率,閥門被假設是完全相同的。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-LxSkAfbb-1586401275372)(asserts/FigureII-4.png)]

系統單故障分析可以用表II-6表示。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-bzmsKM8R-1586401275373)(asserts/TableII-6.png)]

在這裏插入圖片描述

該系統故障概率爲8×1048 \times 10^{-4}

現在讓我們看看是否可以通過考慮可能的成功來複制這個結果。現在有三個已經定義的成功路徑,這些路徑我們可以通過口頭或圖表的方法詳細說明。如果ROiR^{i}_{O}表示“閥門i成功開啓”,RCiR^i_C表示“閥門i成功關閉”,並且P(Path i)P(Path \ i)表示第i個成功路徑對應的成功概率,我們就有了

路徑1:兩個閥門在兩個循環中都能正常工作。

在這裏插入圖片描述
路徑2:一個閥門在第一個循環打開失敗但另一個閥門在兩個循環中功能正常

在這裏插入圖片描述

路徑3:第一個閥門在第二個循環打開錯誤但是其他閥門兩個循環功能正常。

在這裏插入圖片描述

用數字表示,系統可靠性可以由如下方式得出

RSYSTEM=(RORC)4+2(1RO)(RORC)2+2(1RO)(RORC)3=0.99880027+0.00019988+0.00019982=0.9991999718×104 R_{SYSTEM} =(R_O R_C)^4+2(1-R_O)(R_O R_C)^2+2(1-R_O)(R_O R_C)^3 \\ =0.99880027+0.00019988+0.00019982 \\ =0.99919997 \approx 1-8 \times 10^{-4}
(CSDN的數學公式怎麼不能用mathjax進行渲染啊)
這和以前的結果一樣,但是能看出來,這種故障方法非常簡便易行。

2.9 結論

雖然我們討論的各類歸納法可以詳細到任何想要的程度,但在實際工作中,它們大多扮演一個“概覽”的方法。在很多應用中,這就是我們需要的。對於任何適度的複雜系統,所有部件失效模式的定義都是十分費力的,而且或許並不是必須做的過程。更糟糕的是,關於部件失效模式的可能的組合的定義是個更加苦難的任務。大體來說,對於沒有明顯功能影響的故障和發生概率可以忽略的故障進行分析是純粹的浪費時間,在所有這些分析中,某一事件的後果必須與其發生的可能性進行綜合評定。

第三章 故障樹分析——基本概念

3.1 定位

在第一章中,我們介紹了兩種系統分析方法:歸納法和演繹法。在第二章中,我們介紹了歸納法。第三章描述了演繹的基本概念和必要的定義,這是餘下的文章的主題。

3.2 失效 vs 成功模式

系統的操作可以從兩個方面考慮:我們可以列舉不同形式的系統正常的功能,或者我們可以列舉各種系統的失效。我們已經從第二章第八節的例子瞭解到這一點,圖III-1描述了失效/成功的空間概念。

在這裏插入圖片描述

值得注意的是,成功空間(Success space)中的某些可識別點與失效空間(Failure space)中的某些類似點重合。因此,例如,可以認爲成功空間中的“最大預期成功”與失效空間中的“最小預期失效”是一致的。儘管我們的第一個傾向可能是選擇系統成功的樂觀觀點,而不是悲觀的系統失敗的觀點,但是我們將看到這並不一定是最有利的。

從分析的角度來看,失敗空間有幾個主要的優點。首先,就什麼是失敗達成共識通常比就什麼是成功達成共識更容易。我們可能想要一架飛得高、不用加油就能飛得遠、速度快、載重量大的飛機。當這架飛機的最終版本下了生產線,其中一些功能可能已經妥協了,在進行通常的權衡。這種交通工具是否“成功”很可能是一個有爭議的問題。另一方面,如果飛機在火焰中墜毀,毫無疑問這一事件構成了系統故障。

“成功”趨向于于系統效能相聯繫,許多輸出,可用的角度,產品和市場元素。這些特質被通過許多連續的變量被描述,這些變量很難依據離散的事件建模,例如“閥門無法開啓”,這個事件都描繪了失效空間的特性。(部分失效,例如閥門部分開啓,因爲其連續的可能性而應該看作一個不同的事件模型)。因此,失效事件,尤其是完全失效,其定義是相對容易的,然而,成功事件設立約束卻相對困難。

另一個有利於使用失效空間的觀點是,雖然從理論上講,一個系統失效的方式和一個系統成功的方式都是無限的,從實踐的角度來看,成功的方式通常比失效的方式多。因此,單純從實踐的角度來看,失效空間的總量規模小於成功空間的總量規模。因此,在分析中,根據失效空間進行計算通常更有效。

我們已經討論了爲什麼分析人員在失效空間工作比在成功空間工作更有利。實際上,所有需要做的就是證明考慮失效空間可以讓分析師完成他的工作,這一點在過去已經被證明過很多次了。爲一個複雜的系統繪製樹形圖是一個昂貴且耗時的操作。當考慮到失效時,可能只需要構建一個或兩個系統模型,如故障樹,它涵蓋所有重要的失效模式。當考慮到成功時,可能需要構建數百個系統模型來涵蓋成功的各種定義。以失效空間爲特徵的事件簡約性的一個很好的例子是民兵導彈分析。只有三個故障樹被繪製對應於三個不希望的事件:意外的程序啓動,意外的發動機點火,和故障啓動。人們發現,僅對這三件事的仔細分析就涉及對整個複雜系統的全面概述。

爲了幫助修正我們的想法,在失效空間中對一些日常事件(一個人開車去他的辦公室)進行分析可能是有幫助的(參見圖III-2)。

圖III-2所指的“任務”是用汽車把X先生從他的家送到他的辦公室。預期的到達時間是8:30,但如果X先生9點前到達辦公室,任務將被認爲是略微成功的。在“最低預期失效”下面是一些可能發生的小問題,但並不妨礙X先生在預期時間到達。9點到達標記爲“最大預期失效”。在這一點和“最小預期失效”之間發生了許多事件,導致X先生的到達時間延遲半個小時或更少。讓“最大可容忍失敗”這一點與某些事故同時發生也許是合理的,這些事故對汽車造成了一些損害,造成了相當大的延誤,但沒有造成人身傷害。在這一點之上是越來越嚴重的事件,最終以死亡的災難告終。

在這裏插入圖片描述

注意,像“雨刷不工作”這樣的事件應該根據當時的自然環境來定位到對應等級。

像圖III-2這樣的圖表也可以用來確定事件,例如,一架商業客機的生產。“最小預期失效”這一點將對應於所有規範的實現,而下面的這一點將表明某些規範已經超出了滿足的要求。“最大預期失效”對應的是一個折衷點,在這個點上所有的規格都沒有被滿足,但這些差異還沒有嚴重到以物質的方式降低飛機的銷售能力。“最大可容忍失效”點對應於建造該飛機的公司的生存點。超過這一點,只有無法忍受的災難纔會發生。一般來說,故障樹分析致力於識別和評估此類災難性事件和完全失效。

3.3 非期望事件的概念

故障樹分析是一種演繹式失效分析,它關注於一個特定的不希望發生的事件,並提供了一種確定該事件原因的方法。不希望發生的事件構成了爲系統構造的故障樹圖中的頂層事件,並且通常由如上所述的完整的或災難性的故障組成。仔細選擇最重要的事件對分析的成功非常重要。如果太籠統,分析就變得難以處理;如果它太具體,分析就不能提供足夠廣泛的系統視圖。故障樹分析可能是一項昂貴且耗時的工作,其成本必須與與相關不期望發生的事件相關的成本進行比較。

現在我們給出一些頂層事件的例子,這些事件或許對於故障樹分析的初學者很適合:

  1. 當一個潛艇在水下時發生災難性事件。在這個分析中,我們或許要區分“惡意攻擊導致的失效”和“常規功能性失效”。
  2. 商用客機的墜毀導致數百人死亡。
  3. 和反應堆在需要遏制噴淋系統工作時沒有噴淋。
  4. 非合理的使用核武器。
  5. 在宇宙探索程序中造成航天器或宇航員的損失。
  6. 當擰開關鑰匙後汽車不啓動。

3.4 總結

在這一章,我們討論了“失效空間”和“非期望事件”的概念,這些概念是故障樹方法的基礎。在下一章中,我們將定義故障樹分析並開始詳細介紹入口和故障事件,這些是組成故障樹的重要部分。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章