故障樹手冊（Fault Tree handbook)（6）

第十章概率與統計分析

1 概述

在這章中，我們將試圖去描述和故障樹相關的概率與統計概念中的基本元素。這些知識也是故障樹量化的基礎。在這方面基礎好的讀者可以直接跳過本章去閱讀第十一章，在後邊需要的時候再來回顧對應的內容。

我們現在先來討論概率分佈理論。我們首先會講解二項分佈，接着學習常規的分佈原理，並重點學習一些在系統分析中常用到的特殊分佈。然後我們將具備統計評估的基礎知識。

我們的表示法或許不是最好的傳統數學統計，我們的方法是一個作者在對工程學的學生和工程師統計課程的過程中所採用的改進後的方法。我們有時會爲了更好更快的闡述概念而犧牲一些數學的嚴謹性。

2 二項分佈

假設我們有四個相似的系統，這些系統都經過特定時間的測試。在測試的最後我們進一步的假設所有的測試結果我們都準確的以“成功”或“失敗”進行了記錄。如果成功的概率用p來表示（失敗的概率就是1-p），那麼在四次實驗外的成功的概率是多少？

這個實驗的結果集合可以用如下表示（下標表示第幾次實驗，S表示成功，F表示失敗）：

$S_1F_2S_3F_4$ 表示“第一次沈工，第二次失敗，第三次成功，第四次失敗”。該結果的概率爲 $p\cdot(1-p)\cdot p \cdot (1-p)=p^2\cdot (1-p)^2$ 。注意在這四次實驗中，四次都成功的方法只有1種，三次成功一次失敗的方式有四種，兩次成功兩次失敗的方式有6種，一次成功三次失敗的方式有四種，全部失敗的方式有一種。總的來說，對於n次實驗，其中成功x次的方式爲
$C_x^n=\frac{n!}{x!(n-x)!}$
它其實就是n個物體一次拿出x個的組合的數量。注意一共有 $2^4=16$ 個不同的結果。如果實驗n次，每次結果要麼是“成功”要麼是“失敗”，那麼就應該會有 $2^n$ 個結果。

讓我們按照如下的方式進行分類：
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-6VWT3guE-1586708457762)(asserts/figureX-t2.png)]

考慮最後一列的各項。 $4p^3(1-p)$ 表示四次實驗中有3次成功的概率。四次實驗中成功三次可以有四種方式，如果有3次成功，那麼我們一定有一次失敗。三次成功一次失敗的概率是 $p^3(1-p)$ ，因爲有四種結果方式，因此最終的概率是 $4p^3(1-p)$ 。最後一列的表達式表示二項分佈的單獨項，它的標準形式如下所示：

如果任意實驗的成功概率是p，那麼
$P[n實驗成功x次]=C^x_n p^x(1-p)^{n-x}=b(x;n,p) \tag{X-1}$

$b(x;n,p)$ 表示概率密度形式的二項分佈。概率密度形式會在後邊的章節進行討論。如果讀者讓n=4，且x的取值範圍是0到4，將能看到從公式X-1中得到的前一個例子的概率列中的單獨項。

在n次實驗中最多獲得X成功的概率，以及最少獲得X項成功的概率，可以通過將對應的單獨項相加來獲得。

$P[n次實驗最多成功x次]=\sum_{s=0}^{x}C^s_nP^s(1-p)^{n-s}\equiv B(x;n,p) \tag{X-2}$

$P[n次實驗最少成功x次]=\sum_{s=x}^{n}C_n^sp^s(1-p)^{n-s}=1-\sum_{s=0}^{x-1}C_n^sP^s(1-p)^{n-s} \tag{X-3}$

其中，B(n;n,p)是累積分佈形式裏的二項分佈（累積分佈將會在後一個章節討論）。在這個階段，我們可以簡單的解釋二項式是成功次數小於等於某個值的概率。因此，回到我們的例子，四次實驗中成功兩次的概率是：

$6p^2(1-p)^+4p^3(1-p)+p^4=1-[(1-p)^4+4p(1-p)^3]$

二項分佈是一個非常大的表格，經常是公式X-2的形式但有時候會是公式X-3的形式，有時候是X-1的形式。可以查看參考資料【1】，【33】，【41】中的例子。

二項分佈的統計平均值是np，方差是 $np(1-p)$ 。平均值是分佈位置的度量，而方差是分散程度的度量。這些知識會在隨後的章節中討論。

在使用二項式的過程中，我們已經做出了很多的假設。明確的列出這些假設非常重要。

每一次實驗都有且只有兩個實驗結果。我們可以用“正常”“故障”來表示結果，也可以用其他的方式準確表示。
一共有n次隨機試驗，n是已經確定的數字。
所有n次實驗完全獨立。
成功的概率可以用p或者其他字母表示，p在實驗的過程中是一個不變的常數。

非常重要的一點是，如果問題出現，並違反了上邊一條或多條的假設，那麼使用二項分佈就是有疑問的，除非對違反的效果進行調查。事實上，所有的分佈和所有的數學方程的特徵都是基於一些假設和限制的，使用這些分佈或方程涉及到這些假設和限制的相關方面。

現在讓我們重新審視這些假設，假如說其中某一條假設並不成立，那麼我們能做什麼？我們來看幾個違反這些假設的例子。

如果實驗的結果不止一個會怎樣？在某些測試方法中，會有三個可能的決策：接受批次，拒絕批次，繼續實驗。如果我們從裝有白色、綠色、紅色、黃色、藍色芯片的容器內抽取一個芯片，每一次的實驗結果會有5種可能性。這種案例不會構成嚴重問題，我們簡單的用二項分佈的擴展方法來取代二項分佈，這個方法就是多項分佈，該方法在很多統計著作中都有講到（例如參考資料52）。如果適用，我們也可以將結果分類爲“成功”與“失敗”，並在更粗略的分類上使用二項式。（在這裏“成功”的概率是所有歸類爲成功的事件的概率的和）
現在我們假設實驗的次數n是未知的，但是知道成功的次數。例如，我們扔一個骰子直到扔出一個5.我們並不能事先知道我們要拋多少次。或者，我們可以去測試相似的繼電器直到發現一個壞的，同樣的，我們不知道需要測試多少次。在這種情況下，我們不能使用二項式，但是另一個和二項分佈相關的分佈是可以用的，它叫做“負二項分佈”（參考資料13）。負二項分佈 $\hat{b}(x;k,p)$ 給出了進行到x個實驗時第k次成功的概率。
$\hat{b}(x;b,p)=C_{x-1}^{k-1}p^k(1-p)^{x-k} \tag{X-4}$
如果n次實驗的結果是互相依存的（例如第x+1次的結果依賴於前x次的結果或可能與前面的結果有關），困難就會增加好多。需要各種條件概率表示。特定結果順序概率依賴於發生的次序,每個不同的次序有不同的概率。舉個例子，用二項分佈來估計是否會下雨就是不可行的事情，因爲天氣模式一般會持續幾天或幾周，星期三是什麼天氣與星期二是什麼天氣有關。如果獨立性存疑，則應該先進行獨立性檢查在應用二項分佈解決問題（參考資料11）。
如果成功的概率在實驗的進行過程中發生了變化，當實驗的樣本選自一個固定的範圍且不拿出替換，這時我們能用超幾何分佈（hypergeometric distribution)解決該問題。這個分佈的形式如下：
$h(x;n,a,b)=\frac{C_a^xC_b^{n-x}}{C_{a+b}^n} \tag{X-5}$

其中，a是總體中具有特徵A的項目數量，b是總體中具有特徵B的項目數量，N=（a+b)是總體或批次的大小，n是從總體中抽取樣本的大小，x是樣本中具有特徵A的數量。

舉個例子，特徵A是有缺陷的，特徵B是沒有缺陷的。 $h(x;n,a,b)$ 得出恰好n樣本中有x個具備特徵A的概率。

當從一個小數量總體中進行抽樣且不替換時，必須應用超幾何分佈。（”小“表示N和n在數量上是同一級別的）。舉個例子，如果我們接受了50個電感，其中10個有缺陷，那麼有問題的部分就有五分之一，但是當我們抽取20個樣本而不替換時，該比例會發生變化。

從公式X-5我們可以看出，使用超幾何分佈涉及到包含階乘在內的複雜的計算，因爲這個原因，二項式經常在此類問題中使用以獲得近似的結果。二項分佈能在 $N \geq 10n$ （其中N是總體數量,n是抽樣數量，一些作者認爲這裏應該是 $N \geq 8n$ ）時獲得近似結果。在此類問題中， $a/n$ 近似等於 $p$ 。

一個應用二項分佈的特殊例子，考慮如下的問題，ABC公司大量生產一個型號的電阻。以前的經驗表明電阻的缺陷率是百分之一。因此，一個採樣的缺陷概率 $p=0.01$ 。如果從生產線上一次採樣10個電阻，那麼其中只有一個缺陷電阻的概率是多少？我們可以得出

$x=1,n=10,p=0.01 \\ b(x=1;n=10,p=0.01)=C_{10}^1 \times 0.01 \times 0.99^9$

如果二項式分佈表可用，我們就可以簡單的通過尋找B(1)-B(0)來評估，因爲

$\begin{aligned} &B(1)=P[0或1個缺陷電阻] \\ &B(0)=P[只有0個缺陷電阻] \\ &B(1)-B(0)=0.9957-0.9044=0.0913 \\ \end{aligned}$

爲了日後相似的計算，我們可以畫一張10個抽樣中含有 $x=0,1,2,3..10$ 個故障電阻的概率的分佈函數。該分佈如圖X-1所示，圖X-1的曲線並不是十分合理，因爲二項分佈是離散的，但是這樣連續插值可以更好的顯示出分佈的總體形狀。

在可靠性和安全性評估中，如果每一個每一個冗餘部件工作獨立，且每個冗餘部件都有（近似）同樣的失效概率，那麼二項分佈是適用於該冗餘系統的。舉個例子，假設我們有一個n冗餘部件，假設其中多於x個發生故障，則系統就會故障。該系統不發生故障的概率就是小於等於x個部件故障的概率，這正是二項累積概率 $B(x;n,p)$ 。

或者，假設有一種情況中有n個可能發生的事件，倘若多於x件事情發生，則出現災難。如果n件事情互相獨立且發生概率相同。那麼二項分佈就是適用的。總的來說，當某事件重複n次，我們想直到其中某個結果出現x次，小於x次或者大於x次的概率時，二項分佈就是適用的。這裏的“n次實驗“可以是n個部件，n年，n個系統或者其他適用的數量單位。

我們將短暫的返回二項分佈，因爲它的兩個限制形式對我們很重要。我們將對其分佈和分佈參數進行討論研究。

3. 累積分佈函數（Cumulative Distribution Function)

讓我們用X代表隨機實驗的可能結果。X經常用來表示隨機變量，這個值可能會是離散（比如一個批次裏邊的數量）的或者連續的（比如重量，高度）。事實上，即使表面上是連續的變量，由於存在測量的分辨率，看起來連續的值也是一個離散變量。將這些量看成是連續的會讓數學層面方便一些。用對應的小寫字母x來表示一個隨機量會更方便一些。

在這裏我們需要展現的基本公式將以連續值的形式給出，在需要給出連續值與離散值的不同的地方，我們會加以說明。總的來說，在操作上是用求和富豪來代替整數符號的問題。在累積分佈方程中用於表示概率形式的 $F(x)$ 裏，我們一般表示X的值要小於等於x的值。

$F(x)=P[X \leq x] \tag{X-6}$

根據公式X-6，因爲F(x)是個概率，因此

$0\leq F(x) \leq 1$

如果X的取值範圍是負無窮到正無窮，那麼

$F(-\infty) =0 \\ F(+\infty) =1 \\$

如果X有更小的限定 $x_1 <X <x_u$ ，那麼

$F(x_1)=0 \\ F(x_u)=1$

F(x)有個很重要的性質是隨着x的增加，它的值是不會減小的。在嚴格的數學含義上，它是一個非減函數，但是不一定單調。它可以更簡潔的表示如下：

If $x_2>x_1$ , then $F(x_2)\geq F(x_1)$

一個更重要的性質如公式X-7所示：
$P[x_1 \leq X \leq x_2]=F(x_2)-F(x_1) \tag{X-7}$

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-oqkWE3Xc-1586708457765)(asserts/figureX-2.png)]

我們在第二節遇到的二項累積分佈B(x;n,p)是F(x)一種特殊形式。F(x)連續和離散變量的標準形式如圖X-2所示。

我們展現在上邊方程中的累積分佈函數的性質對離散和連續隨機變量是有效的。

舉一個隨機變量和對應的累積分佈的例子，在一個隨機試驗中，我們觀察一個單獨的器件的故障次數。每當該部件故障，我們就修好它，將時間t歸0，並記錄下次故障的時間。

我們假設維修並不會改變部件故有性質，也就是說每次維修都會讓部件回到初始狀態。隨機變量T是初始化或維修後到發生故障的時間。我們用 $t_i$ 來表示T的特定值。累積分佈 $F(t)$ 用來表示任意給定故障時間少於或等於t的概率。

另一個例子，我們針對某樣物體進行反覆的測量。隨機變量X表示測量結果， $x_i$ 表示某次測量結果。累積分佈F(x)表示測量值小於或者等於x的概率。我們能從 $F_{est}(x_i)$ 來估計 $F(x)$ ，其中
$F_{est}(x_i)=\frac{n_i}{n}$

n是測量的總次數， $n_i$ 是測量的X小於等於 $x_i$ 的測量次數，隨着n不斷的變大， $F_{est}(x_i)$ 也在不斷的接近 $F(x_i)$ 。在應用中，累積分佈函數必須根據理論思考來確定，或者通過統計方法估算。

4. 概率密度函數(probability Density Function)

對於連續隨機變量，概率密度函數(probablity desity function,簡稱pdf),f(x)，可以通過F(x)微分的方式獲取。

$f(x)=\frac{d}{dx}F(x) \tag{X-8}$

它的等效形式是

$F(x)=\int_{-\infty}^{x}f(y)dy \tag{X-9}$

因爲f(x)是非遞減函數的斜率，我們有

$f(x) \geq 0 \tag{X-10}$

若概率函數在整個範圍內進行積分，那麼結果是統一的。

$\int_{-\infty}^{\infty}f(x)d(x)=1 \tag{X-11}$

$f(x)$ 的性質使得我們可以把其下的區域看成概率。

概率密度的基本含義可以用公式X-12表示：

$f(x)dx=P[x<X<x+dx] \tag{X-12}$

我們前邊的公式X-7可以用另外一種特別有用的形式表示：

$P[x_1\leq X \leq x_2]=\int_{x_1}{x_2}f(x)dx \tag{X-13}$

f(x)的標準形狀闡述於圖X-3，其中a是一個對稱分佈，b是一個向右傾斜的分佈，c是向左傾斜的分佈。（在圖中，x增加相當於圖形右移）。

在持續變量的情況下，概率必須用區間表示。這是因爲對於指定的x值的概率一直等於0，因爲在任意區間中有無數個X的值。因此 $f(x)dx$ 是目標落在x和x+dx區間的數量的概率。當然，dx的區間長度應該儘可能的小。f(x)本身也就是單位區間的概率。在這個例子中，我們用加法符號來替代積分符號，將所有目標區間的x的概率加起來。公式X-13將適用於所有離散的X。

在先前故障案例中， $f(t)dt$ 給出了部件在t和t+dt之間發生故障的概率。在測量的例子中，f(x)dx給出了測量結果位於x和x+dx之間的概率。從經驗角度出發，如果我們考慮大量的測量，f(x)dx可以用以下公式進行估計
$f(x)\delta x= \frac{\delta n_i}{n}$
這裏n是測量的總次數, $\delta n_i$ 是X位於x和 $x+\delta x$ 之間的數量。

5。分佈參數和矩

特定概率密度函數的特徵是通過分佈參數描述的。一類參數用於沿着橫座標定位分佈。因此，像這類的參數被稱作位置參數（location parameter)。

最常見的位置參數是統計平均數。其他常用到的位置參數有：中值（median)（50%在概率密度曲線下方的區域在中值的左邊；另50%在右邊）；模（mode)，位於概率曲線的最大值或“峯值”上（在二項分佈或三項分佈中，可能會沒有最大值或有多個最大值的情況）；中列數（mid-range）,當變量在有限的區間內，它是最大值和最小值的平均值，除此之外，其他的都不很重要。圖X-4展示這些概念。

在（a)中，中值用 $x_{.50}$ 表示。從中值的定義中可以看出，50%的次數結果將會小於等於 $x_{.50}$ ，而50%的次數，將會大於。因此 $P(x\leq x_{.50})=.50$ ，根據累積分佈， $F(x_{.50})=.50。中值是$ \alpha $百分數的特殊例子，$ x_\alpha $定義爲F(x_\alpha)=\alpha$ ，例如，90%百分數是 $F(x_{.90})=.90$ ，90%的次數中結果中的x數值將會小於等於 $x_{.90}$ 。

在（b）中，模是用 $x_m$ 表示，給出了最大概率的結果的值。在©中，我們看到如何從兩個極值中得出中列數。

均值（average）也被成爲平均值（mean）或期望值（expected value）。如果我們重複做相同的隨機實驗，對結果取平均值。那麼這個實際平均值會隨着實驗次數的增加越來越接近理論平均值。（我們假設分佈存在平均值，這樣實驗平均值會越來越趨向於總體平均值）

在圖X-3（a)中那樣的對稱分佈的情況下，均值，中值和模是統一的。對於傾斜的分佈，如圖X-3（c)，中值將落於模和均值之間。在圖X-5中，這兩個對稱分佈圖形有着相同的均值，中值和模。但是對於中心聚集程度的角度來看，它們卻是不一樣的。用來描述這分佈這方面的參數叫分散參數（dispersion parameters）。其他和這個類似的參數還有方差（variance）、方差的開方和標準差（standard deviation）。其他分散參數比較少用到，是種植絕對偏差（median absolute deviation),範圍在上限值和下限值之間。我們將會在後一章裏邊計算方差。

事實上，還有很多其他的分佈參數，我們這裏涉及到的都是一些基本的參數。當累積概率分佈的形式確定後，我們必須掌握計算分佈參數的具體方法。這些通用方法中的一些方法需要計算分佈中的矩，並且在理論統計中十分重要。分佈的矩可以在任意指定點上計算，但是我們限制只在（a)中計算原點的矩，(b)中計算均值的矩。

(a) 原點的矩

第一個關於原點的矩被定義如下：

$\mu _1 ' = \int_{-\infty}^{+\infty}xf(x)dx \tag{X-14}$

它表示X的平均或期望值，用 $E[X]$ 表示。我們使用 $\mu$ 來簡單的表示均值，因爲 $E[X]=\mu$ 。

第二個關於原點的矩被定義如下：

$\mu _2 '=\int_{-\infty}^{+\infty}x^2f(x)dx \tag{X-15}$

他表示 $X^2$ 的期望值， $E[X^2]$ 。

總而言之，第n個關於原點的矩是

$\mu _n '=\int_{-\infty}^{+\infty}x^nf(x)dx \tag{X-16}$

表示 $X^n$ 的期望， $E[X^n]$

如果 $Y=g(X)$ 是任意關於X的函數，X是根據概率密度函數f(x)的分佈， $g(X)$ 的期望可以通過如下方式獲得：
$E[Y]=E[g(X)]=\int_{-\infty}^{+\infty}g(x)f(x)dx \tag{X-17}$

(b)均值的矩

第一個關於均值的矩定義如下：

$\mu_1=\int_{-\infty}^{+\infty}(x-\mu)f(x)dx \tag{X-18}$

因爲它總是等於0，所以並沒有什麼用處。

第二個關於均值的矩的定義如下：
$\mu_2=\int_{-\infty}^{+\infty}(x-\mu)^2f(x)dx \tag{X-19}$

它表示了方差 $\sigma ^2$ 或者$E[(X-\mu)^2f(x)dx]。總的來說，均值的第n個矩定義如下：

$\mu_n=\int_{-\infty}^{+\infty}(x-\mu)^nf(x)dx \tag{X-20}$

表示 $E[(X-\mu)^n]$ 。

有一個非常有用的關係：

$\mu_2=\mu_2'-(\mu_1')^2 \tag{X-21}$

公式21允許我們通過評估X-15中的積分，而不是X-19中更復雜的積分來計算方差。公式21可以通過如下方式得到輕易的證明：

在離散隨機變量的情況下，原點的第一個矩表示爲：

$\mu=\mu_1 ' =\sum_{i=1}^n X_i p(x_i) \tag{X-22}$

這裏 $p(x_i)$ 是 $x_i$ 的概率，最常用的尋找n個值的平均值的方程如下：

$\hat{x}=\frac{1}{n}\sum_{i=1}^n x_i$

這是公式22應用的特殊情況，每個值都被認爲擁有同樣的出現的概率 $\frac{1}{n}$ 。

例如，對於單一的骰子，我們有

$\mu=\mu '=\frac{1+2+3+4+5+6}{6}=3.5$

儘管實際上不會出現這樣的結果，但是期望值是3.5.

同樣的，如果隨機變量是離散的，那麼第二個均值的矩的形式如下：

$\mu _2=\sum_{i=1}{n}(x_i-\mu)^2p(x_i) \tag{X-23}$

在所有 $x_i$ 都有同樣的“權重”1/n的情況下，公式X-23可以簡化成計算n個讀書採樣的方差的採樣等式：

$s^2=\frac{1}{n}\sum_{i=1}{n}(x_i-\hat{x})^2 \tag{X-24}$

我們用一個應用分佈矩的簡單例子來總結這一節的內容。參考如圖X-6那樣的矩形概率密度函數，它在a和b中的任何值基本都是相等的，因爲都相等，所以 $f(x)=f_0$ 。因此，這個概率密度函數的積分應該是1，我們有：
$Area=f_0(b-a)=1$ ，於是 $f_0=\frac{1}{b-a}$ 。

分佈的均值（期望）計算如下：

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-cVvsse9F-1586708457771)(asserts/equationX-2.png)]

分佈的方差計算如下：

10.6 二項式的極限形式：正態分佈和泊松分佈

有一些很重要的分佈是二項分佈的極限形式。例如：
$\lim_{n\to \infty}[C_n^x p^x(1-p)^{n-x}]$

上面的式子是p是固定的，n趨近於無窮的一種極限形式。省略數學細節，該過程會轉換成著名的正態分佈形式：高斯分佈。

$f(x;\mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}exp[-\frac{1}{2}(\frac{x-\mu}{\sigma})^2] \tag{X-25}$

這裏 $\mu$ 和 $\sigma$ 是平均值和標準差。正態分佈已經廣泛的應用表格進行處理，但不是X-25那樣的形式。X-25那樣的表格需要對 $\mu$ 和 $\sigma$ 進行廣泛的覆蓋，這將使得表格過於臃腫而降低可用性。找到一種轉換形式，將 $\mu$ 和 $\sigma$ 標準化，變成0和1，這是有可能的。這種轉換是：

$z=\frac{x-\mu}{\sigma} \tag{X-26}$

對應的基於z的表現形式爲

$f(z)=\frac{1}{\sqrt{2\pi}}e^{-z^2/2} \tag{X-27}$

這個式子被叫做標準正態分佈，它是所有正態分佈表格的基本形式。

讀者注意到，從公式X-25經由公式X-26到公式X-27，並不是一個簡單的替換的過程。這個變換用到了轉換的雅克比式（參考【25】）。在這個例子中，雅克比式是 $\sigma$ ，這裏抵消了 $1/(\sqrt{2\pi}\sigma)$ 中的 $\sigma$ 。 $f(z)$ 的圖形如圖X-7所示：

這裏列舉了一些標準正態分佈的幾個特徵。其中我們最感興趣的是曲線之下橫軸上的兩個點之間的部分。讀者應該還記得這樣的區域可以當成一個概率，因爲曲線下的所有區域之和是一致的。假設存在一個點 $z_1$ ，一些表格記錄了從 $z_1$ 到 $+\infty$ 的曲線下的區域（圖中的陰影部分）；一些表格記錄了從 $z_1$ 到 $-\infty$ 的曲線下的區域，還有一些表格記錄了從 $z_1$ 到原點的曲線下的區域。當然，在智能的使用表格之前，必須確認要製表的區域。

對於正態分佈，對於原始的變量X， $\sigma$ 衡量了平均值 $\mu$ 到曲線拐點的距離，概率密度曲線從 $\mu-\sigma$ 到 $\mu+\sigma$ 的區域約等於0.68，從 $\mu-2\sigma$ 到 $\mu+2\sigma$ 約等於是0.95.

這裏假設讀者已經熟悉正態分佈和它的表格。儘管如此，我們還是給出一個簡答的數學實例，有經驗的可以略過。鍛件中的槽的寬度符合正態分佈，它的均值 $\mu$ 等於0.900英寸，標準差 $\sigma$ 等於0.0030英寸。如果說明書中的限制（允許誤差）爲 $0.9000\pm 0.0050$ ,佔有總產出多少百分比的數將被拒絕？拒絕的鍛件是其寬度數值是在圖中陰影部分的那些。

對於x=0.9050的z值爲
$z=\frac{0.9050-0.9000}{0.0030}=1.67$

從標準正態表格可以得出，右邊的尾巴區域在 $P[Z\geq 1.67]$ 等於0.0475。這是 $X\geq 0.9050$ 的概率。由於圖形是對稱的，所以左邊的尾巴區域也是0.0475.所以兩邊尾巴加在一起的就是0.0950.這就是一個零件寬度在說明書外的概率。因此，9.5%就是零件被退回的概率。

這個退回率相當高。如果說明書不做更改，我們可以通過認真工作，降低 $\sigma$ 來降低退回率。假設我們的目標退回率是1/1000=0.001,那麼最大允許的退回率 $\sigma$ ,這裏記爲 $\sigma '$ ，應該是多少？

如果退回率是0.001，則每個尾巴上的區域必須是0.001/2=0.0005。從表格中得出，截去0.0005區域尾巴的z的值是3.3。從 $z=(x-\mu)/\sigma$ 我們可以得出 $\sigma '=(x-\mu)/z$ ，

因此 $\sigma '=\frac{0.9050-0.9000}{3.3}=0.00152英寸$ 。

因此，對於0.001的退回率，最大允許 $\sigma$ 的值是0.00152英寸。

我們研究正態分佈有很多種理由。其中之一就是根據中心極限定理，不管每個測量的分佈如何，大量的測量的均值就趨近於正態分佈。另一個理由是正態分佈爲許多消耗模型提供了相當好的統計模型。

從系統和可靠性分析的角度出發，另一種重要的形式是以下二項分佈的極限形式：
$\lim_{n\to \infty \\ p\to 0}\{C_n^xp^x(1-p)^{n-x}\} \tag{X-28}$

在公式X-28中，這個極限採用了這樣一種形式來使得np保持有限。這個極限過程的結果爲

$\frac{(np)^x}{x!}e^{-np}=\frac{m^x}{m!}e^{-m} \tag{X-29}$

這裏m=np。（這個數學過程可以在很多參考資料中找到，例如參考【32】，45-46頁）

公式29給出了稀有事件（ $p\to 0$ ）在大量試驗下（ $n \to \infty$ ），精確的x的發生概率。事件預期的發生次數是 $np=m$ 。公式X-29的分佈就是泊松分佈。如同矩的方法展示（雖然有更簡單的方法），泊松分佈的均值和方差在數值上都等於m。

即使p不是特別小，n也不是特別大，泊松分佈還是能很好的近似二項分佈。舉個例子，假設在批量生產過程中遇到不合格產品的概率是0.1（即p=0.1），那麼在一批次10個零件中（n=10）發現不合格產品正好是1個的概率是多少？準確的數值可以通過二項分佈得到
$b(1;10,0.1)=0.3874$
泊松分佈可以得到近似結果爲0.3679，於實際值相差不大。如果我們提高批次的數量到20（n=20），則結果更加接近:二項分佈爲0.2702，泊松分佈爲0.2707.

泊松分佈非常重要，不僅因爲它能近似計算二項分佈，而且它能描述很多稀有事件的性質，而不論其潛在的物理過程如何。泊松分佈在描述穩態系統組件或系統的故障發生方面還有很多應用。我們將在後邊的章節描述這些系統應用方式。

10.7 針對系統故障的泊松分佈應用——指數分佈

假設我們有一個穩態系統，它不在燃燒或損耗狀態。我們進一步假設，當它失效時，它會恢復到初始狀態，維修的時間可以忽略。我們的關注點是系統故障。我們着重關注系統出現故障的次數爲0次的概率。因此，在泊松分佈中，我們在公式X-29中令x=0。其結果是：
$P[系統故障次數爲0]=e^{-m}$
其中，m爲大量的實驗中系統預期的故障數。

現在，就係統失效而言，我們關注的參數是時間。因此我們要尋找如何用時間來表達m。這件事很簡單。

假設我們有系統的數據，平均每50小時系統就會故障。我們說故障的平均時間（ $\theta$ ）就是50小時。如果我們讓系統工作100小時，我們預計會遇到兩次失敗，因爲100/50=2。採用符號t表示工作時間，我們有

$時間t內我們預計的故障次數=t/\theta=\lambda t$ ，這裏 $\lambda = 1/\theta$ 。

但是m爲預計的故障次數。因此
$P[系統故障0次]=e^{-m}=e^{t/\theta}=e^{\lambda t}$ 。

現在，系統的可靠性，R(t)通過時間t內持續正常工作的概率來定義。因此我們有：
$R(t)=e^{-t/\theta}=e^{-\lambda t} \tag{X-30}$

時間t之前系統出現故障的概率由累計分佈函數F(t)給出。系統可能在時間t前失效或者不失效，因此我們有
$R(t)=e^{-\lambda t}=1-F(t)$
以及
$F(t)=1-e^{-\lambda t} \tag{X-31}$
有關公式X-31的概率密度函數現在可以輕易的得出
$f(t)=\frac{d}{dt}F(t)=\frac{d}{dt}(1-e^{-\lambda t}) \\ f(t)=\lambda e^{-\lambda t} \tag{X-32}$
公式X-32中的概率密度函數通常指的是“失效時間的指數分佈”。公式X-30在某些時候簡稱是實數分佈。

公式X-30，X-31，X-32給出的可靠性、累計分佈、概率密度函數，在系統分析和可靠性方面用處非常廣泛。原因很簡單，指數分佈是個非常簡單的分佈。只有一個參數（故障率或故障平均時間）必須通過經驗確定。但是我們必須十分小心的應用公式X-30來計算系統可靠性。因爲公式X-30來自於泊松分佈。而後者是二項分佈的極限形式。二項分佈被我們在前一章所列舉的很多假設所限制。在極限過程中一些假設被修改。但其中之一併沒有涉及。這個假設就是所有的實驗都是互相獨立的。換句話說，一個實驗就是在某個時間段有機會發生故障。

當系統故障是可修復的，我們關於獨立實驗的假設。解釋如下。在未來某時段故障的概率是一個只和時間段長度有關的函數，和過去的故障次數無關。如果系統是不可修復的。則我們的假設需要更改成如下的形式：沒有先前的故障，對於不可修復的部件，如果我們在一個靠前的時間出現了一次故障，那麼在某一個後邊時刻，它的已發生故障的概率是1，後續發生故障的概率是0，以爲事件已經發生了。

表徵故障過程的另一種方法如下。對於指數分佈，到時間t還沒有出現故障，那麼在(t,t+ $\delta t$ )時段中發生故障的概率和同樣時間長度的其他時段概率是相等的（到該時段還未發生故障）。它和(0, $\delta t$ )時間段的故障概率是相同的。因此，因爲我們從t=0開始運行系統，在時間t上我們的系統“和新的一樣”，這是指數分佈的另外一種描述。

如果我們從假設出發——在特定時間段裏故障的概率是一個只和時間段的長度有關的函數，我們能單獨從這個假設中得到指數分佈。假設一個不可修復的系統，他能存在於兩種狀態之一： $E_1$ 爲系統工作, $E_0$ 爲系統故障。我們定義

$P_1(t)=在時間t系統在E_1狀態的概率 \\ P_0(t)=在時間t系統在E_0狀態的概率$

假設開始時系統處於 $E_1$ 狀態.

現在 $P_1(t+\delta t)$ 表示系統在 $t+\delta t$ 時系統處於狀態E1的概率。我們有
$P_1(t+\delta t)=P_1(t)[1-\lambda \delta t]=P_1(t)-P_1(t)\lambda \delta t$

這裏，根據我們開始的假設（系統故障概率只和時間段的長度有關）， $\lambda \delta t$ 給出的系統在時間段 $\delta t$ 中從狀態E1到E0的轉換概率， $\lambda$ 是一個常數（失效率）。因此 $(1-\lambda \delta t)$ 表示系統在 $\delta t$ 時刻沒有從E1到E0的概率。代數重排產生了如下的差分方程。
$\frac{P_1(t+\delta t)-P_1(t)}{\delta t}=-\lambda P_1(t)$
如果我們讓時間段的長度接近0，根據定義，方程左邊的極限形式就是 $P_1(t)$ 關於t的導數。
$\lim_{\delta t \to 0}[\frac{P_1(t+\delta t)-P_1(t)}{\delta t}]=\frac{d}{dt}P_1(t)=P_1 '(t)= -\lambda P_1(t)$
這是關於時間微分的主要觀點，是由牛頓提出。我們現在有了微分方程：
$P_1'(t)=-\lambda P_1(t)$
如果我們記得限制條件 $P_1(t=0)=1$ ，則這很容易整合。
$\begin{aligned} &\frac{d[P_1(t)]}{P_1(t)}=-\lambda dt \\ &[ln\ P_1(t)]^t_0=[-\lambda t]_0^t \\ & ln \ P_1(t)-ln 1=-\lambda t &P_1(t)=e^{-lambda t} \end{aligned}$
這正是系統的可靠性，因爲 $P_0(t)+P_1(t)=1$ ，我們有
$P_0(t)=1-e^{-\lambda t}=1-R(t)=F(t)$

對應的概率密度函數是
$f(t)=\lambda e^{-\lambda t}$
我們認識到這是指數分佈。

10.8 失效率函數

上一章中
$F(t)=P[t之前發生故障的]$
$f(t)dt=P[t和t+dt之間發生故障]$
我們現在定義一個條件概率， $\lambda(t)$ ，叫做失效率函數（failure rate function）
$\lambda (t)dt=P[故障在t和t+dt間發生|先前沒有發生故障] \tag{X-33}$

對於任意常規分佈，有一個重要的性質：
$\lambda (t)=\frac{f(t)}{1-F(t)} \tag{X-34}$
該式證明如下.
我們用T來表示失效發生的時間。T是一個隨機變量，定義如下：
$\lambda (t)dt=P[t<T<t+dt |t<T]$
讓我們用(t<T<t+dt)表示事件A，然後用t<T表示事件B。我們記得有如下性質
$P(A|B)=\frac{P(A\bigcap B)}{P(B)}$
因此
$\lambda (t)dt=\frac{P[(t<T<t+dt)\bigcap (t<T)]}{P(t<T)}$
現在事件A是事件B的一個特例。當A發生，則B自動發生，在集合理論中，A是B的一個子集，在這些條件下， $A\bigcap B=A$ 。於是
$\lambda (t)dt=\frac{P[t<T<t+dt]}{P(t<T)}=\frac{P[A]}{P[B]}=\frac{f(t)dt}{1-F(t)}$
最終
$\lambda(t)=\frac{f(t)}{1-F(t)}$
這也就是公式X-34.
如果我們爲一個系統畫出關於時間的 $\lambda (t)$ ，則曲線如圖X-8所示。這個曲線呈現浴缸的樣子。
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-txmufdU3-1586708457778)(asserts/figureX-8.png)]

圖8的曲線可以分成I，II，III的三部分。I區被稱爲“嬰兒死亡率區域”，這個區域很難確定分佈。適合這部分曲線的分佈可能取決於系統本身的特性。製造商經常要對產品進行老化測試，以降低批量產品運送給顧客前的早期故障。II區對應“一個常數故障率”，是指數分佈適用的機會失敗區域。區域III對應磨損過程，正態分佈經常爲此提供一個適當的模型。對於一個真實的系統， $\lambda (t) - t$ 曲線經常與圖X-8的描述差異較大。例如，區域II的指數分佈經常整個消失，或者老化區域是可以忽略的。

返回故障率方程，可以很方便的對X-34的F（t）和f(t)求解。通過以下形式改寫X-34來完成。
$\lambda (t)dt=\frac{[-F'(t)dt]}{1-F(t)} \tag{X-35}$
其中 $F'(t)=\frac{dF(t)}{dt}$ .
對X-35兩邊取積分，得到
$-\int_0^t \lambda(x)dx=ln[1-F(t)]$
它等效於
$1-F(t)=exp[-\int_0^t\lambda (x)dx]$
因此 $F(t)=1-exp[-\int_0^t\lambda (x)dx] \tag{X-36}$
如果我們對X-36取微分，我們有
$f(t)=\lambda (t)exp[-\int_0^t\lambda (x)dx] \tag{X-37}$
假如我們令 $\lambda(t)=\lambda=常數$ ，那麼對於X-36和X-37，我們有
$F(t)=1-e^{-\lambda t} \\ f(t)=\lambda e^{-lambda t}$
這是一個指數分佈。對於該指數分佈，然後，故障率是一個常數（僅依賴於時間t），
$\lambda(t)dt=P[故障發生在t和t+dt之間 | 以前沒有發生故障]=\lambda dt$
如果我們選擇採用指數分佈來描述部件的故障分佈。我們假設我們處於“浴缸曲線”中恆定的，穩態的部分，沒有老化和磨損的發生。因爲故障率是一個常數，指數分佈通常指作爲“隨機故障率分佈”，如以後的故障概率依賴於以前時序正常工作時間。

如果我們採用 $e^{=t/\theta}$ 來表示可靠性也是十分有價值的，即使是磨損發生（但不是老化），我們這裏依舊是保守的。例如 $R(t)\geq e^{-t/\theta}$ ，這裏R(t)是實際上的可靠性， $\theta$ 是實際的故障平均時間。對於 $t \leq \theta$ 這個關係是真實的（參考[15]）。

公式X-36，X-37可以用來評估多種不同類型的故障率模型。例如，如果 $\lambda(t)=kt$ （線性增加的故障率）我們可以得出
$R(t)=1-F(t)=exp(-kt^2/2)$
這被叫做瑞利分佈。一個時間故障率相關的重要分佈，通過將 $\lambda (t)=Kt^m (m>-1）$ 代入，可以獲得威布爾分佈.
$f(t)=kt^mexp(-\frac{kt^{m+1}}{m+1})$
和
$R(t)=1-F(t)=exp(-\frac{kt^{m+1}}{m+1})$
威布爾分佈是兩參數的分佈，k是比例參數(scale parameter)，m是形狀參數(shape parameter)。對於m=0，我們得到指數分佈，當m增加，一個磨損行爲就被建模。當m增長到2，f(t)則變成正態分佈。當m小於0但是大於-1，則浴缸曲線的老化區域的模型就被建立起來。因此，改變m的值，我們能使用威布爾分佈來包含浴缸曲線的I，II，III區域。讀者可以從其他的文獻中找到威布爾分佈的更多的講解。（參考【23】p137-138, 附錄D，[36] p190）

10.9 一個涉及時間-失效分佈的應用

時間-失效分佈的概念是十分重要的，爲了加深讀者的印象，我們設計瞭如下的例子。

我們從兩個供應商那裏買了相似的部件A和B。供應商A聲稱平均壽命是100小時（ $\theta_A=100$ 小時），並聲稱其時間-失效分佈是指數分佈。B的平均壽命也是100小時，但是它的時間-失效分佈是正態分佈，其均值是100小時，標準差是40小時。

讓我們嘗試計算這兩個部件的10小時工作時間的可靠性。首先，我們考慮部件A。
$R_A(t)=e^{-t/\theta_A} \\ R_A(10)=e^{-10/100}=e^{-0.1}=0.905$
因此，對於部件A，它的可靠性是90.5%。

現在讓我們考慮部件B。它的分佈是正態分佈。我們需要找到對應t=10小時的變量z的值。
$z=\frac{t-\theta_B}{\sigma_B}=\frac{10-100}{40}=-2.25$
這個值是z去掉尾部區域的0.01222（從標準正態表），表明了10小時之前的失效概率。因此
$R_B(t=10)=1-0.01222=0.988$
B的可靠性是98.8%。
根據以上的內容，我們發現儘管 $\theta_A=\theta_B$ ，但是 $R_A$ 和 $R_B$ 還是不一樣。這個結果不同因爲他們的分佈是不同的。當t增加，最終指數分佈會比正態分佈有更高的可靠性。例如，對於t=100小時， $R_A=36.8$ ， $R_B=50.0%$ ，但是對於t=200小時，這兩個分佈都會有相同的可靠性。讀者可以計算下給定R_A=R_B$下t的值。

10.10 統計估計

假設我們參加洛杉磯地區中20到30歲的男人身高的研究。這是一個很大的總量，儘管我們想要去測量誒一個人的身高，但是實際上是不允許的。
我們採用一個妥協的方式解決該問題，我們從總量裏邊進行隨機採樣。隨機採樣的重要性將在後邊敘述。從樣本中，我們能估計任意感興趣的參數，例如樣本的均值，樣本的中值，樣本的方差等。現在的問題是，對於總量的採樣統計這個方法到底怎麼樣？事實上，我們是否能保證樣本均值比樣本中值或中位數在總體均值中更好？爲了回答這個問題，我們需要準確的瞭解諸如此類語句在統計上的含義。

“ $\hat{\theta_a}$ ”表示總量參數 $\theta$ 的好的估計方法
“ $\hat{\theta_b}$ ”表示總量參數 $\theta$ 的最好的估計方法
“ $\hat{\theta_b}$ ”是比 $\hat{\theta_c}$ 更好的估計方法（//TODO:這裏沒看懂，是不是應該是a?）

這些問題將在第十三章重新講解。首先我們必須討論選擇隨機樣本的重要性，然後我們必須建立抽樣分佈的概念，特別是均值的抽樣分佈。

10.11 隨機樣本

一個隨機樣本，表示在一個總體中每一個樣本都有相同的機會被涵蓋（採樣）。大多數統計計算是基於隨機假設的；如果一個結論是通過看似是隨機的，但實際上是反應某些總體特徵的樣本得出的，那麼這個結論一定是大錯特錯的。

一個經典的隨機假設是無效的例子，在1936年的Literary Digest投票上。投票想要做一個抽樣調查，目的是看羅斯福和藍盾誰能當選美國下一任總統。投票顯示藍盾將獲勝，然而實際上卻是羅斯福通過11069785票的普遍多數和523比8的選舉人票數贏得了選舉。在這個例子裏，投票大部分是通過電話進行。在當時的經濟大蕭條時期，擁有電話的人大部分是富裕的共和黨人，他們都傾向於投票給藍盾。通過非隨機樣本做出的結論有明顯的錯誤。在此之後不久Literary Digest就不復存在了。

如果想要在剛獲取的一箱樣本中進行隨機抽樣，那麼只從箱子上邊拿是不對的。如果你這樣做了，你可能得到了過於樂觀的結論，因爲有可能箱子在運輸過程中跌落，導致下邊的部件都是故障的。不論何時進行抽樣，必須小心保證抽樣的隨機性因爲所有的估計技術都是基於隨機抽樣的。一個簡單的方法，就是利用隨機數表來保證抽樣的隨機性。其他隨機抽樣的方法在資料【10】有詳細的描述。

10.12 抽樣分佈

假設從某總量中抽取樣本的數量爲n，並計算樣本的均值 $\overline{x_1},其中$ \overline{x_1}=\frac{1}{n}\sum_{i=1}{n}x_i $，我們現在能進行第二次數量爲n的抽樣，並計算它的均值$ \overline{x_2} $。採用類似的方式，我們能生成其他的採樣均值，$ \overline{x_3},\overline{x_4},\overline{x_5} $等。我們並不期望這些均值都相等。事實上，這些均值都是隨機變量。我們將樣本均值用$ \overline{X} $表示，它代表隨機變量。問題來了，$ \overline{X}$是如何分佈的？所謂的受限中心極限定理(restricted central limit theorem)提供了部分答案，它是這樣說的：

如果X（隨機變量）是按照均值 $\mu$ ，方差 $\sigma$ 進行正態分佈的，那麼 $\overline{X}$ 是按照均值 $\mu_{\overline{X}}=\mu$ ，方差 $(\omega_{\overline{X}})^2=\omega^2/n$ 進行正態分佈的，n是樣本大小。

這個定理只在總體數量是無限大的情況下才是完全正確的。對於有限的總量爲N，樣本大小爲n，則
$(\omega_{\overline{X}})=\frac{\omega^2}{n}(\frac{N-n}{N-1})$

更重要的是，一般的中心極限定理，指的是如果X是按照均值 $\mu$ 和方差 $\omega^2$ 分佈的，但是其他的分佈是未知的， $\overline{X}$ 的分佈和均值 $\mu$ 和方差 $\omega^2/n$ 非常接近，最少對於很大的n來說是這樣的(n大於等於50)。

因此，不論何時我們處理大樣本的均值，我們都會關注正態分佈。均值採樣分佈的方差隨着樣本大小的增加而減少，這爲儘可能多的採集樣本數量提供了依據。注意針對 $\overline{x}$ 的z變換爲
$z=\frac{\overline{x}-\mu}{\omega/\sqrt{n}}$

其他評估的方法（例如中位數，範圍，方差等）的特徵在於其對應的採樣分佈，其中的大部分可以在統計學的進一步資料中找到（例如參考【30】）。比如，對於一個正態分佈，方差估計值 $s^2$ 是卡方分佈得到的 $\chi^2$ 的函數。

$\chi^2=\frac{(n-1)s^2}{\sigma^2}$

卡方分佈已經被廣泛的製表，並大量應用於決策準則，擬合判斷優度分析，以及假設測試。

10.13 點估計——總述(//TODO: Check General meaning )

從樣本中計算單一的數值（比如 $\overline{x}$ ），構成了對應參數的點估計。代表值集合的相關隨機變量稱爲樣本估計量。爲了便於描述，我們定義 $\theta$ 代表要估計的總量參數， $\hat{\theta_a},\hat{\theta_b},\hat{\theta_c}$ 表示 $\theta$ 中要估計的各類樣本。例如，如果 $\theta$ 表示總量的平均值，那麼 $\hat{\theta_a}$ 就可以表示樣本均值估計量; $\hat{\theta_b}$ 代表中位數估計； $\hat{\theta_c}$ 代表中間範圍估計，等等。
$\hat{\theta_a},\hat{\theta_b},\hat{\theta_c}$ 估計量都有采樣分佈。讀者應注意，以下的估計量特徵與採樣分佈有關。

a) 無偏估計量

如果一個估計量的採樣分佈存在這樣一個均值，該均值與被估計的總量參數相等，那麼這個估計量叫做無偏估計量。因此，如果 $\hat{\theta_a}$ 是一個總量均值 $\mu$ 的無偏估計量，那麼
$E(\hat{\theta_a})=\mu$
從期望的屬性中，我們知道樣本均值 $\overline{X}$ 是一個 $\mu$ 的無偏估計量，因爲 $E(\overline{X})=\mu$ 。另一方面
$S^2=\frac{1}{n}\sum_{i=1}^{n}(X_i-\overline{X})^2$
是 $\sigma^2$ 的偏差估計量。如果我們乘以 $n/(n-1)$ (貝塞爾修正)我們有
$S^2=\frac{1}{n-1}\sum_{i=1}{n}(X_i-\overline{X})^2$
這是 $\sigma^2$ 的無偏估計量。

b) 最小均方差估計量和最小方差估計量

一個估計量的均方差定義如下：
$MSE=E(\hat{\theta}-\theta)^2 \tag{X-38}$
MSE是一個衡量估計值 $\hat{\theta}$ 偏離真實值 $\theta$ 的總量的一個方法。通過在公式X-38的圓括號中加上或減去 $E(\hat{\theta})$ ，並利用該結果，我們能重寫MSE爲如下形式：
$MSE=E[\hat{\theta}-E(\hat{\theta})]^2+[E(\hat{\theta})-\theta]^2$
右手邊的第一項是估計值的方差，第二項是估計值偏差的平方。如果估計是是無偏的，那麼 $E(\hat{\theta})=\theta$ ，且
$MSE=E[\hat{\theta}-E(\hat{\theta})]^2$
因此對於無偏估計量的MSE是簡單的估計量的方差。

如果針對多個估計量 $\hat{\theta_a},\hat{\theta_b},\hat{\theta_c}$ …，其中之一有最小的MSE，那麼這個估計量就叫做最小均方差（minimum mean square error,MMSE)估計量。如果在這些估計量中，所有的都是無偏的，其中之一有最小的方差，那麼這個估計量就叫做最小方差無偏估計量(minimum variance unbiased estimator,MVUE)

估計量的選擇依賴於應用情況。如果我們打算用於許多的應用，那麼我們一般想要估計量是無偏的，因爲一般來說我們希望估計量等於真實的值。如果我們從兩個或者多個無偏估計量中選擇，我們經常選擇最小方差的那個。如果比較兩個無偏的估計量 $\hat{\theta_1}$ 和 $\hat{\theta_2}$ ，那麼其中具有相對較小的方差的那個更有效。在實際應用中，我們用它們的比值
$\frac{var(\hat{\theta_2})}{var(\hat{\theta_1})}$
它是一個衡量估計值 $\hat{\theta_1}$ 與 $\hat{\theta_2}$ 相對效率的方法。

但是，如果我們打算只應用估計值一次或者幾次，那麼一個（有偏差）MMSE估計值或許更有效率。在這個例子中，相對於長時間的無偏的性質，我們對與真實值的最小偏離量更感興趣。

c) 一致估計量（Consistent Estimators) //TODO:I don’t know my translation is correct or not.

如果 $\hat{\theta_a}$ 是 $\theta$ 的一致估計量，那麼
$P[|\hat{\theta_a} - \theta | < \epsilon] > (1-\delta) \ \ \ n>n'$

這裏 $\epsilon$ 和 $\delta$ 是任意小的正數， $n'$ 是某個整數。我們可以將上面的等式解釋爲隨着採樣量n的增加，估計量的概率密度函數將集中與參數的真實值。當n變得非常大，估計值偏離真實值的概率將趨近於0.這種情形我們叫“ $\hat{\theta_a}$ 的概率收斂到 $\theta$ “。

性質a,b,c是評價估計量好與壞的理論特徵。關於估計量的進一步的考慮將在參考[24]中給出。

10.14 點估計量——極大似然

一個計算估計量非常重要的技術叫做極大似然法。這個方法用途很廣，例如，在生命測試中計算參數估計量。對於一般條件下的大樣本數量（n趨近於無窮），極大似然技術可以得到一致估計量（consistent)、最小均值平方差估計量(MMSE)和最小方差無偏估計量(MVUE)。甚至對於中小規模的樣本，極大似然技術也能產生可用的估計量。該技術基於以下的假設：從總體中抽取的特殊樣本是最有可能被選擇的樣本。爲了證明這個推論是正確的，考慮如下兩個例子。

橋牌玩家不希望拿一手包含所有13張黑桃的牌。拿到這樣一手牌的概率是十分小的，因爲它只有一種發生的方式。但是，拿到一手黑桃的概率是和一手其他同樣一張張分配好的牌的概率是一樣的，因爲它們也是隻有一種方式。拿到一手牌的的樣子可以是這樣的：

4張黑桃
2張紅心
4張方塊
3張草花

這手牌有許多種獲得的方式。準確的來說， $C_13^4 C_13^2 C_13^4 C_13^3=(13)^4(11)^3(10)^2(3)$ 種方式（超過10億）。事實上，你將會得到4-4-3-2的分佈大概20%的機會。剩下的次數將會得到和這個十分類似的一手牌。極大似然技術是基於這樣一個假設：我們得到的抽樣是最大概率得到的那一個，或者是接近最大可能的那一個。

爲了更實際的闡述，假設我們有一個特殊的攝像頭來拍攝一個滿是氣體的箱子裏的分子。當這個攝像頭開發出來，我們不僅能看到分子的位置，還能看到分子的矢量速度。我們可以拍照幾千年，並且它們所有的照片將看起來很類似：空間中的同類型分子向所有方向的運動。即使這樣，我們依舊有概率（即使很小），我們將找到一張照片，所有的分子都在盒子的一個角落，且運動方向都是北方。如果我們應用極大似然技術到一個樣本（一張給定的照片），然後我們將作出一個假設：這個樣本是一個可能性，但不是非常不可能的一個。

總的來說，極大似然技術是在以下假設上發現的：我們的樣本是我們從總體中抽取到的最有可能的那一個——總是帶有附帶條件：我們盡力確保它是隨機的。

假設我們從一個根據概率密度函數(pdf) $f(x;\theta)$ 的總體隨機抽樣，這裏 $\theta$ 是一個未知的總體參數，我們想要對其進行估計。假設我們的採樣（大小爲n）是 $x_1,x_2...x_n$ ，且樣本的變量是獨立的。利用概率密度函數，我們寫下了一個表達式，該表達式給出了與特定樣本相關的概率，並應用最大化的條件。

我們在區間 $dx_1$ 中第一個讀到是 $x_1$ 的概率明顯就是 $f(x_1;\theta)dx_1$ 。在 $dx_1$ 中第一個讀取到的是 $x_1$ ，並且在 $dx_2$ 中第二個讀到的是 $x_2$ 的概率是
$f(x_1;\theta)dx_1 \dot f(x_2;\theta)dx_2$

根據這種推理方式，我們能寫出例子的概率表達式爲
$P[sample]=f(x_1;\theta)dx_1 f(x_2;\theta)dx_2 f(x_3;\theta)dx_3...f(x_n;\theta)dx_n \tag{X-39}$

如果我們拋棄微分，我們能得到一個被稱作似然函數的表達式
$\text{Likelihood Function}= f(x_1;\theta)f(x_2;\theta)...f(x_n;\theta)=\prod_{i=1}^n f(x_i;\theta) \tag{X-40}$

符號 $\prod$ 表示連乘。似然函數在該例子中不再等於概率，但是它表示與該概率成比例的數量。（如果概率變量不獨立，則似然可能會由多種分佈組成，我們將試圖使其最大化，具體參考[24]）

注意的是這個函數是僅僅是關於 $\theta$ 的，因爲所有的x都是已知的。我們現在將研究如何取值 $\theta$ ，使得 $L(\theta)$ 最大化。我們通過將其求導，讓導數等於0從而得到極值條件下 $\theta$ 的值。
$\frac{d}{d\theta}L(\theta) =0$
假設我們能解出該方程，將結果寫作 $\theta_ML$ ，這就是極大似然估計一個未知總體的參數 $\theta$ 。

我們現在思考一些極大似然技術在實際中的具體應用的例子。假設我們從一個總體中隨機抽樣，該總體符合正態分佈，其均值 $\mu$ 爲未知，方差 $\sigma^2$ 爲1。

$f(x;\mu,\sigma=1)=\frac{1}{\sqrt{2\pi}}exp[-\frac{(x-\mu)^2}{2}].$
我們想對 $\mu$ 做出極大似然估計。
極大似然估計的函數是

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-Msijvk6t-1586708457779)(asserts/equationX_t1.png)]

兩邊取自然對數，我們有

$L(\mu)=-\frac{n}{2}ln(2\pi)-\frac{1}{2}\sum_{i=1}{n}(x_i-\mu)^2$

應用最大化條件

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-3vwfcsDM-1586708457781)(asserts/equationX_t2.png)]

這產生
$\sum x_i - n\mu =0$
於是
$\mu_{ML}=\frac{1}{n}\sum_{i=1}^n x_i=\overline{x}$

因此， $\mu$ 的極大似然估計就是數學均值。

如果多於一個總體的參數被估計，其過程是類似的。假設在以前的例子中 $\mu$ 和 $\sigma^2$ 都是未知的，那麼我們的基本概率密度函數爲
$f(x;\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}exp[-\frac{(x-\mu)^2}{2\sigma^2}]$
似然函數爲
$f(x_1,\mu,\sigma^2)...f(x_n;\mu,\sigma^2)=\frac{1}{(2\pi\sigma^2)^{n/2}}exp[-\sum_{i=1}{n}\frac{(x_i-\mu)^2}{2\sigma^2}]$

取自然對數，我們有
$L(\mu,\sigma^2)=-\frac{n}{2}ln(2\pi)-\frac{n}{2}ln\sigma^2-\frac{1}{2sigma^2}\sum_{i=1}{n}(x_i-\mu)^2$
我們得到 $\partial L/\partial \mu$ 和 $\partial L/ [\partial(\sigma^2)]$ 並將結果等於0，第一個操作得到和以前相同的結果，也就是
$\mu_ML=\frac{1}{n}\sum_{i=1}{n}x_i=\overline{x}$ 。
第二個操作得到

$\sigma^2_ML=\frac{1}{n}\sum_{i=1}{n}(x_i-\overline{x}^2)$

這是一個 $\sigma^2$ 的有偏估計，其偏差可以通過將 $\sigma^2_ML$ 與數量n/(n-1)相乘來消除。那麼
$\sigma^2_{unbiased}=\frac{1}{n-1}\sum_{i=1}{n}(x_i-\overline{x})^2$

如果樣本的大小n比較大( $n\geq 30$ )，那麼 $\sigma^2_{ML}$ 和 $\sigma^2_{unbiased}$ 是沒什麼明顯的差別的。方差的估計值通常用 $s^2$ 來表示。

作爲最後一個例子，讓我們返回指數分佈並找到 $\theta$ 的ML估計，也就是平均生命。//TODO：這裏有點問題，ML到底如何翻譯比較好？

假設我們n個部件實驗中發生了n次失效，那麼
$f(t_1;\theta)...f(t_n;\theta)=\theta^{-n}exp[-\frac{1}{\theta}\sum_{i=1}^{n}t_i]$
且
$L(\theta)=-nln\theta - \frac{1}{\theta}\sum_{i=1}^{n}t_i$
因此
$\frac{dL}{d\theta} = -\frac{n}{\theta}+\frac{1}{\theta^2}\sum_{i=1}{n}t_i=0$
並且
$\frac{1}{\theta}\sum_{i=1}^{n}t_i=n$
於是
$\theta_{ML}=\frac{1}{n}\sum_{i=1}^n t_i$
又一次是簡單數學平均。

10.15 區間估計（Interval Estimators)

從上一節，我們學習到，基於從總體中隨機抽樣，如何進行總體參數的點估計。如果我們願意，我們也可以採用一種不同的方法。這涉及到一個如下的斷言(assertion)

$P[(\hat{\theta}_{lower} < \theta < \hat{\theta}_{upper})] = \eta$

這裏 $\theta$ 是一個未知的總體參數， $\hat{\theta}_{lower}$ 和 $\hat{\theta}_{upper}$ 是隨機抽樣的估計量， $\eta$ 是一個概率值，像是0.99，0.95什麼的。假設 $\eta=0.95$ ，我們是指如下的區間
$(\theta_L<\theta<\theta_U)$
對於置信區間爲95%情況下的 $\hat{\theta}_{lower}$ 和 $\hat{\theta}_{upper}$ 。在這個例子中，我們允許5%的概率（風險）我們的斷言是錯誤的。

爲了闡明置信區間的概念，我們用幾何的方法來說明。假設我們從總體中連續的抽樣 $(x_1,x_2)$ ，它有個參數是 $\theta$ ，我們對 $\theta$ 設置了一個置信區間。我們在對應的縱座標 $\theta$ 和橫座標 $x_1,x_2$ 中設置了三維的空間（參考X-9）。總體參數 $\theta$ 的實際數值已被標記在了縱座標軸上，一個橫向的平面穿過了這個點。現在我們從我們95%置信區間中計算的值 $\theta_U,\theta_L$ 中隨機抽樣 $(x_1,x_2)$ 。 $\theta_U$ 和 $\theta_L$ 所定義的區間被畫在圖中。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-dDr3xUKv-1586708457782)(asserts/figureX-9.png)]

下一步我們進行第二次抽樣 $(x_1',x_2')$ ，據此我們在95%置信區間中計算出 $\theta '_U,\theta_L'$ 。這個區間被標註在圖中。第三次抽樣 $(x_1'',x_2'')$ 得到 $\theta_U'',\theta_L ''$ ，等等。在這種方式下，我們能生成一個大的置信區間族。這些置信區間僅僅依賴於採樣的值 $(x_1,x_2)(x_1',x_2')..$ ，因此我們能在不知道 $\theta$ 的真實值的情況下計算這些區間。如果所有的置信區間都是在95%置信的基礎上計算的，並且如果這些置信區間的族非常大，那麼其中的95%將通過 $\theta$ (包含 $\theta$ )切割那個平面，而其中5%不會。

選擇一個隨機樣本，並且從中計算置信區間的過程，就相當於從一個包含幾千個置信區間的口袋中隨機抓取一個。如果它們都是95%區間，我們選擇一個包含 $\theta$ 的機會是95%。相反的，5%的機會我們不幸的選擇了一個不包含 $\theta$ 的（就像圖X-9中 $(\theta_U'',\theta_L'')$ 區間）。如果5%的風險感覺太高了，我們可以選擇99%的區間，這個風險只有1%。如果我們選擇更高的置信層次（更低的風險），如果我們持續增加置信層級，區間的長度將會增加直到100%置信，此時區間包含了每一個可能的 $\theta$ 的值（我確信在總量10000中有缺陷的物品的數量爲0至10000之間）。因此，100%置信區間沒什麼意義。

現在我們看一個例子，學習怎麼樣從一個均值爲 $\mu$ ，標準差爲 $\sigma$ 的正態分佈中計算出 $\theta_L$ 和 $\theta_U$ 。在這個例子中，我們假設我們想要求解 $\mu$ 並且已經知道 $\sigma$ （基於以前的數據和知識）。如果每一個樣本都來自正態分佈，那麼樣本均值 $\overline{X}$ 是一個均值爲 $\mu$ 標準差爲 $\sigma/\sqrt{n}$ 的正態分佈，這裏n是樣本大小。甚至如果每一個樣本的值都不是取自正態分佈，那麼根據中心極限定理，對於一個非常大的n， $\overline{X}$ 也將約等同均值爲 $\mu$ ，標準差爲 $\sigma/\sqrt{n}$ 的正態分佈。然後數量Z將是標準正態隨機變量，這裏
$Z=\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}$
這裏Z的分佈已經被製表。因爲Z的分佈已經被製表，對於任意給定的概率 $\eta$ ，-w和w的值，這樣
$P[-w < Z \leq w] = \eta$
例如，對於 $\eta = 0.95, w= 1.96$ 。上式中取代Z，我們有
$P[-w\leq\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\leq w]=\eta$
這裏w對於任意給定的 $\eta$ 是已知的。(例如，我們可以替代 $\eta$ 爲0.95且w爲1.96)

下面我們來專注於最後一個公式左邊的不等式，並將它轉化成如下的形式：
$[\theta_L<\mu<\theta_U]$
各項都乘以因子 $\sigma/\sqrt{n}$ ，將不等式轉換成
$[-w\frac{\sigma}{\sqrt{n}}<\overline{X}-\mu<+w\frac{\sigma}{\sqrt{n}}]$
每一項減去 $\overline{X}$
$[-w\frac{\sigma}{\sqrt{n}}-\overline{X}<-\mu<w\frac{\sigma}{\sqrt{n}}-\overline{X}]$
下一步我們將每一項乘以-1，注意此操作要將不等式反向。
$[w\frac{\sigma}{\sqrt{n}}+\overline{X}>\mu>-w\frac{\sigma}{\sqrt{n}}+\overline{X}]$
我們可以寫成如下的形式
$[\overline{X}-w\frac{\sigma}{\sqrt{n}}<\mu<\overline{X}+w\frac{\sigma}{\sqrt{n}}]$
該不等式得出了 $\mu$ 的置信區間，在總體均值的情況下，那麼
$\theta_L=\overline{x}-w\frac{\sigma}{\sqrt{n}} \\ \theta_U=\overline{x}+w\frac{\sigma}{\sqrt{n}}$

如果給定了置信係數 $\eta$ ， $\overline{x},n,w$ 是已知的。 $\sigma$ 的值假設也已經知道。如果我們不知道 $\sigma$ 的值，從先前的正態分佈描述中，我們可以通過採樣來估計 $\sigma$ ，從而獲得數量s。現在我們可以形成標準值t，其中
$t=\frac{\overline{x}-\mu}{s/\sqrt{n}}$
向z變量那樣處理，我們能得到如下不等式
$\overline{x}-\frac{ts}{\sqrt{n}}<\mu<\overline{x}+\frac{ts}{\sqrt{n}}$

但是，t並不符合正態分佈。該分佈在20世紀初被W.S.Gossett發表，被公認爲t分佈；它的性質已經被一一列舉。所以如果 $\sigma$ 未知，我們對於給定的 $\eta$ 能方便的從t分佈表格，而不是正態分佈表格中找到t的值，t分佈餓值取決於樣本大小（自由程度）。事實證明，當樣本大小大於25或30，t分佈表格和正態分佈已經難以分辨了，於是我們可以用正態分佈表格。

在估計可靠性和故障平均時間方面，單邊置信區間比雙邊置信區間更常見。如果抽樣分佈是對稱的（尾部面積相同），那麼雙邊區間可以輕易的轉換成單邊區間；舉個例子，如果
$0.95<R<0.98$
在95%置信級別，那麼
$R>0.95$
在97.5%置信級別。

對於指數分佈，故障平均時間 $\theta'$ ，可以通過點估計的方法進行估計
$\theta_ML=\frac{1}{n}\sum_{i=1}{n}t_i$

這裏 $t_i$ 是故障的觀察時間。他能符合2n自由度的卡方分佈 $\chi^2=\frac{n\theta_{ML}}{\theta}$ $。令$ \chi^2(97.5,2n), \chi^2(2.5,2n)$爲卡方的值，對應97.5%和2.5%的累積分佈值，對於雙邊95%置信區間，我們有
$\chi^2(2.5,2n)<\frac{n\theta_{ML}}{\theta}<\chi^2(97.5,2n)$
或者，等效爲
$\frac{n\theta_{ML}}{\chi^2(97.5,2n)}<\theta<\frac{n\theta_{ML}}{\chi^2(2.5,2n)}$

對於不同等級的其他區間可以通過卡方分佈查表獲得。對於失效率 $\lambda = 1/\theta$ 的置信區間可以通過將上面關於 $\theta$ 的不等式換向來獲取。

對於更多的有關實驗，置信區間，以及最大似然點估計，取決於數據收集的方式。例如，在命名爲類型1測試中，對於預先分配的時間段T，n個部件具有相同的故障機率。在這個時間段內，故障的部件數量是隨機的。對於類型2測試，n個部件持續運行直到某數量的部件發生故障，這個故障的數量小於n。

前面引用的Mann,Schafer,和Singpurwalla的文章[24]，進一步闡述了方式1和方式2，結合了點估計和置信區間。討論了替換的測試，各種情況下的Weibull分佈，gamma分佈，以及指數分佈的置信區間和點估計也進行了討論。

10.16 貝葉斯分析

在前邊的討論中，我們將採樣分佈的參數作爲固定值進行處理。在很多應用中，這個假設是有問題的。在貝葉斯原理中，採樣分佈的參數並不是作爲固定值處理，而是作爲隨機變量進行處理的。作爲指數分佈 $f(x)=\frac{1}{\theta}e^{-x/\theta}$ ，失效平均時間 $\theta$ 被認爲符合某個概率分佈。以故障率 $\lambda=1/\theta$ 表示指數，我們得到 $f(x)=\lambda e^{-\lambda x}$ 。故障率當然也符合某概率分佈（因爲存在關係 $\lambda = 1/\theta$ ， $\lambda$ 的分佈取決於 $\theta$ ，反之亦然)。從此處 $\lambda,\theta$ 的描述我們能表示出和 $\lambda,\theta$ 有關的隨機變量。

我們用 $p(\lambda)$ 表示 $\lambda$ 的概率密度函數。 $p(\lambda)$ 被稱爲先驗分佈，表示我們抽樣之前對 $\lambda$ 瞭解的知識。假設已知給定的樣本的故障時間 $(t_1,t_2...t_n)$ ，我們然後討論 $\lambda$ 的後驗分佈，它表示我們對 $\lambda$ 分佈新的瞭解，並結合了額外的採樣數據。

$\lambda$ 的概率密度函數用 $p(\lambda | D)$ 表示，它的後驗分佈可以輕易的從貝葉斯定理中獲取(標誌D表示數據採樣，例如 $(t_1,t_2..,t_n)$ )，現在貝葉斯原理
$P(B|A)=\frac{P(A|B)P(B)}{\sum_B P(A | B)P(B)}$
讓我們用A表示數據採樣D，且B表示故障機率在 $\lambda$ 和 $\lambda+d\lambda$ 之間的事件，我們有
$P(\lambda | D )= \frac{exp[-\sum_{i=1}^{n} \lambda t_i]\lambda^n p(\lambda)}{exp[-\sum_{i=1}^{n} \lambda t_i] \lambda ^n p(\lambda)d \lambda}$

這裏我們將求和符號替換成積分符號。因爲分母並不包含 $\lambda$ （它被積分）我們能將上式寫成
$P(\lambda | D)=K exp[-\sum_{i=1}{n}\lambda t_i]\lambda^n p(\lambda)$

這裏K被視爲歸一化常量。 $\lambda$ 的後驗分佈 $p(\lambda | D)$ 現在會結合我們的先前的知識和抽樣的觀察數據。

貝葉斯原理給我們一個標準的方法來更新故障率 $\lambda$ 有關的信息(例如，從 $p(\lambda)$ 到 $p(\lambda | D)$ )。如果第二個採樣 $D'$ 被收集(記爲 $t_1',t_2',...t_n'$ )那麼 $\lambda$ 的分佈將結合兩個數據集合來更新。如果 $p(\lambda | D,D')$ 表示 $\lambda$ 基於數據D和D’集合的後驗分佈，那麼我們使用上邊帶有 $p(\lambda | D)$ 的等式來作爲我們的優先給予 //TODO:I don’t understand the word ‘giving’ means here.

$p(\lambda | D,D')=K exp[-\sum_{i=1}^{n}\lambda t_i]\lambda^n p(\lambda | D)$

喝多文章都描述了初始先驗選擇 $p(\lambda)$ 以及各類數據處理技術（參考24和30）。在貝葉斯理論中，概率密度函數獲取了一些參數（例如 $p(\lambda | D)$ )這些參數給出了有關參數易變性和不確定性的詳細信息。我們能獲取點的值，比如 $\lambda$ 最可能的值或者 $\lambda$ 的均值。我們同樣能獲取區間值，這些區間值是概率區間，有時被叫做貝葉斯置信區間。舉個例子，決定了 $p(\lambda | D)$ ,然後我們就決定了下限和上限 $\lambda_L,\lambda_U$ 的95%的值，這樣失效概率在這些值之間的概率就有95%。
$\int_{\lambda_L}^{\lambda_U} p(\lambda | D)d\lambda = 0.95$

其他的邊界和點的值也可以通過貝葉斯方法來獲取，因爲這些參數的分佈（例如 $p(\lambda | D)$ )是完全已知的，這些分佈表明我們對於這些參數的瞭解。貝葉斯方法在工程經驗和總體知識方面很有優勢，同樣還有“乾淨”統計數據，它可以分解成先驗分佈（後驗分佈）。一旦獲得每個相關組件參數的分佈，例如部件失效機率，然後就可以直接獲取任何故障樹量化中的系統參數的分佈，例如系統不可用，可靠性，或者平均失效時間。人們必須非常小心的決定先驗分佈，它真實的表示了分析人員的相關知識，且確定不同先驗的影響——如果它們都可能適用。貝葉斯方法在參考【24】中進一步討論。

第十一章故障樹評估技術

11.1 概述

本章描述了手動和自動化故障樹評估技術，並且討論了從這些評估中得到的基礎結果。一旦故障樹建立，我們都能評估來獲取到定量和定性的結果。對於簡單的故障樹，評估可以手動進行；對於複雜的故障樹，需要進行計算機編碼來進行評估。第十二章討論了用於故障樹評估的計算機代碼。

我們從故障樹評估中可以獲取到兩種結果：定量的結果和定性的結果。定性的結果包括：1)故障樹的最小切割集；2）定性的部件權重；3）最小切割集可能易受常見原因（常見模式）的影響。如同前邊討論的那樣，最小切割集給出了所有導致系統失效的部件失效的唯一性組合。定性的重要性給出了每個部件在系統失效層面的“定性級別”。這些常見原因（常見模式）評估定義了那些由由於共同敏感性，因爲單一失效原因導致所有可能失效的多部件組成的最小切割集。

定量的結果可以從下方面獲取：1）絕對概率；2）部件量化權重和最小切割集；3）敏感性和相關概率評估。量化權重給出了系統由於特定的最小切割集後特定部件失效造成的系統失效的的時間的百分比。敏感性和相關的概率評估決定了更動維護，檢查次數，執行設計變更，以及更動部件可靠性的效果。包括在敏感性評估中的還有誤差分析，這是爲了確定故障率數據的不確定度的影響。

下面是從故障樹評估中獲取到的不同類型的結果。在下一節中我們會對故障樹評估進行進一步的研究。

定性的結果
最小切割集	導致系統失效的部件失效的組合
定性的權重	系統失效的作用的定性排名
常見原因可能性	最小切割集可能導致的單一失效的原因

量化的結果
數字的概率	系統和切割集的失效概率
量化的權重	導致系統失效的量化排名
敏感性估計	改變模型，數據，錯誤判定的影響

11.2 量化評估

定性評估的最小切割集能通過第七章第四節的故障樹布爾化簡來獲取。本節會給出一些附加的例子來讓讀者對布爾化簡更加熟悉。最小切割集不僅會在隨後的定性評估中使用，在定量評估中一樣被廣泛使用。

11.2.1 最小切割集的確定

因爲最小切割集構建了這裏涉及的所有類型的評估，所以我們先大體的回顧一下故障樹的最小切割集。總的來說，在第七章第四節開始，我們的目標是從最小切割集T中獲取頂層事件
$T=M_1+M_2+M_3+...+M_n$
最小切割集 $M_j$ 由主要失效（primary failures)的組合構成，如 $M_j=C_1 C_2 C_3$ ，這是導致系統失效的主要失效的最小組合。取代（//TODO:Check the means of substitution ）可以是自上而下的取代和自下而上的取代。大部分決定最小切割集的算法都是基於這些原理的（計算機編碼將在第十二章討論）

現在讓我們考慮圖XI-1中壓力罐故障樹的例子。圖XI-1與第8章壓力罐構建的例子細節上很像（第八章壓力罐的例子的圖示在圖VIII-13）。在第八章中，最小切割集爲了簡化版本的故障樹而確定（//TODO：I’m not sure if this translation is correct）。我們將在這裏確定細節故障樹的最小切割集作爲定性或定量估計的第一個類別。

在圖XI-1的故障樹中，我們標明主要失效爲圓中的 $P_1,P_2...$ ；次要失效爲鑽石型中的 $S_1,S_2...$ ；未開發事件爲鑽石形狀中的 $E_1,E_2...$ ；除了頂層事件用T表示外，所有更高級的故障用 $G_1,G_2...$ 表示。

與圖XI-1故障樹等效的布爾方程爲:

注意我們對故障樹中每一個門都有一個方程

我們使用從下至上的過程，並通過用G‘s代入主要事件(P’s, E’s和S’s)來寫每一個門方程。使用分配律和吸收律我們將轉換每一個門方程到最小切割集的形式。 $G_8$ 已經是最小切割集的形式。 $G_7$ 只包含更高級的故障 $G_8$ ，於是代之以
$G_7= P_5+S_5+P_6+S_6+E_6$
現在這是最小切割集的形式。 $G_6$ 和 $G_5$ 都是最小切割集的形式。 $G_4$ 包含 $G_6$ 和 $G_7$ ，它們也已經是最小切割集的形式，因此得到
$G_4=P_4+S_4+E_4+P_5+S_5+P_6+S_6+E_6$
在 $G_3$ 的方程中取代 $G_4,G_5$ ，我們有
$G_3=(P_4+S_4+E_4+P_5+S_5+P_6+S_6+E_6)\cdot(P_3+S_3+E_3)$
利用分配律，轉換 $G_3$ 到如下形式

現在 $G_2=P_2+S_2+G_3$ ，因此
$G_1=E_1+P_2+S_2+G_3$
於是 $T=P_1+S_1+E_1+P_2+S_2+G_3$
以 $G_3$ 的擴展形式代入最後一個等式，我們最終得到T的最小切割集形式

頂層事件，或系統模型，因此包含：

5個單獨的部件最小切割集
24個雙部件最小切割集

我們需要注意如果 $S's$ 表示次要故障，那麼我們真的需要細緻的描述它們。所有我們需要做的就是重新定義主要故障P，從而表示所有的原因類型，如果我們願意，我們能區分定量分析的原因。通過刪除故障樹中的 $S's$ ，我們刪除了所有包含 $S$ 的切割集。我麼現在有：

3個單獨部件最小切割集
10個雙部件最小切割集。

11.2.2 定性的權重

獲取最小切割集之後，根據大小對最小切割集進行排序，能獲取一些故障權重的思路。首先單一部件最小切割集先被列舉，然後是雙部件最小切割集，然後是三個的。計算機代碼經常會按照這種順序列出最小切割集。

因爲當最小切割集的大小增加，需要計算機參與的需求也會明顯增加，通常的做法是近獲取一個、兩個的、和三個部件的最小切割集。作爲額外的計算，如果它們有可能導致出常見的故障，更高序列的最小切割集（四個以上）有時也會被獲取（將在下一節討論）。

因爲最小切割集的故障概率會隨着切割集大小的增加而以數量級形式的減小，所以用大小進行的排名也就表明了切割集的權重。例如，如果單個部件的故障概率是 $10^{-3}$ 這種量級的，那麼一個單獨部件的最小切割集的概率也將是 $10^{-3}$ 級別的，雙部件的就是 $10^{-6}$ 級別的，三部件的就是 $10^{-9}$ 級別的。部件故障概率總體上是不同的，依賴於測試區間，停機時間等因素；因此，根據大小的最小切割集排名僅僅給出了一個大概的權重。

這些最小切割集有時候能直接用用於檢查設計標準。例如，一個設計標準表明系統中沒有單一部件故障，那麼這就等效說明系統不會含有單一部件最小切割集。最小切割集可以用於檢查該標準是否被滿足。相似的檢查同樣可以用於“系統中不能有單獨的故障這種對特定故障的限制”這種標準上。

11.2.3 常見原因敏感性（//TODO:Susceptibilities和sensitively都是敏感性，怎麼區分？）

故障樹上的主要故障（部件故障）不一必須是互相獨立的。一個單一的，更基礎的原因可能會導致系統失效的多種故障。例如，一個操作員可能會標定錯誤所有的傳感器。例如，一個蒸汽管道的泄漏可能會導致控制檯的所有儀器都失效。導致系統失效且起源於共因的故障被叫做共因故障。

在故障樹評估中，我們並不知道那些故障是共因故障；但是，我們能指出部件失敗可能會導致一個普通起因的敏感性。現在根據定義，如果在最小切割集中的所有主要故障都發生，頂層事件發生（例如，系統故障就發生）。因此，我們只對那些共因感興趣，它們能觸發最小切割集內的所有主要故障。不在最小切割集中觸發所有主要故障的原因本身不會造成系統故障。

爲了定義最小切割集，該最小切割集對我們能首先定義基本原因類別的共因故障是敏感的，這些狀態類別是能造成部件依賴的常規區域。共因分類的例子包括製造商，環境，能量源（不能清晰的在樹上表示），和人。下面給出了一些分類的例子，這些分類可用於指導共因敏感性評估。

評估的共因分類列表

製造商
位置
地震敏感性
洪水敏感性
溫度
溼度
輻射
磨損敏感性
測試降級
維護降級
操作人員交互
能量源
污垢或污染

對於每一個共因分類，我們定義特定的“元素”。例如，對於分類“供應商”，其元素可以是涉及的特定製造商，我們將其編碼爲“製造商1”，“製造商2”等等。對於分類“位置”，我們可以將其按照實際位置把車間劃分成不同的區域並進行編碼，其編碼就是元素。對於“地震敏感”類別，我們可以定義集中敏感等級，從不敏感到十分敏感，爲了更具體說明，我們將定義故障可能發生的加速度範圍。

在共因敏感性評估中我們下一步的任務涉及部件編碼。作爲部件名稱編碼的一部分或有關部件描述字段中，對於每一個部件故障，我們描述每一個部件相關的每一個分類的元素。分類和元素可以按照任何方便使用的編碼系統進行分類和編碼。例如，“MV2-183”可以表示手動閥門2，它具有分類1相關的元素1，分類2相關的元素8，分類3相關的元素3（“-183”）。這種命名方式可以在隨後的計算機輸入中被輕易的編碼。

執行這樣的編碼，隨後我們就能在故障樹的最小切割集中識別敏感的最小切割集。對共因故障具有潛在敏感的最小切割集就是那些對於給定的分類所有具有相同元素的主要故障的那些集合。定義這些潛在敏感的最小切割集，我們需要最終篩選這些切割集，以確定那些需要進一步的處理。這些最終的篩選可以基於常規原因發生的歷史記錄，一些量化分析的類別，和/或工程判斷。最後一步是最困難也是最消耗時間的。第十二章第六節，將討論執行初始查詢的計算機代碼。

11.3 量化評估（Quantitative Evaluations)

當獲得最小切割集後，如果需要量化結果，則概率評估就可以執行了。這種順序的方式進行概率評估是最容易實現的，首先確認部件的失效概率，然後是最小切割集概率，最後是系統。例如，頂層事件，概率。這種過程下每一個切割集和部件的量化權重也很容易獲得。

如果失效率是作爲隨機變量處理，那麼隨機變量遺傳技術就能用於對從失效率變化得到的系統結果變化率的估計。我們首先討論常見的“點估計”，其中爲每一個失效率分配一個值，每一個最小切割集和系統概率有一個值，隨後，我們討論隨機變量分析。

11.3.1 部件失效概率模式

對於“部件”，我們意思是失效樹上的任何基本主要事件（圓型，鑽石型等）。對於任何部件，我們考慮的僅僅是到底是使用每小時固定的失效概率模型還是每循環固定失效率模型。在使用這些固定失效率的模型過程中，我們無視任何時間相關的效果，比如部件磨損或老化。我們討論的恆定失效率模型通常用於數量級結果。當時間相關的效果，比如磨損或老化是比較重要的，或者當需要較高的準確度，比如10倍，那麼就需要更精確的模型。這些更精確的模型包含，Weibull或gamma失效分佈模型；讀者可以在參考【12】和【17】中讀到更多的相關知識。

11.3.2 每小時恆定失效率模型：概率分佈

首先思考一個部件，它的失效模型具有每小時恆定的失效機率。讓我們將每小時恆定的失效率記做 $\lambda$ 。當我們使用每小時恆定失效率模型，我們這裏簡單的記做 $\lambda$ 模型。我們直接假定失效概率直接和部件的曝光時間有關。曝光時間越長，失效概率越高。失效原因可以是人工錯誤，測試和維護，或者是環境，比如污染和腐蝕等。 $\lambda$ 模型是失效樹評估中最常用的模型。

對於 $\lambda$ 模型，第一個失效概率分佈是指數分佈。爲了加深印象，我們來回顧一下該分佈的性質。假設在初始狀態，概率 $F(t)$ 是部件在時間t裏遭受第一次故障的概率，那麼
$F(t)=1-e^{-\lambda t} \tag{XI-1}$
F(t)是我們在第十章第3節中講述的累積概率分佈。在可靠性術語中， $F(t)$ 被稱作部件不可靠性（component unreliability)。對應 $F(t)$ 互補的量綱是 $1-F(t)$ ，它部件在初始工作時，在時間t內沒有故障的概率。
$1-F(t)=e^{-\lambda t}$
在統計的術語中， $1-F(t)$ 叫做互補累積概率。在可靠性屬於中， $1-F(t)$ 是部件的可靠性，用 $R(t)$ 表示。
$R(t)=1-F(t)$

這裏用 $f(t)$ 表示密度函數，它是 $F(t)$ 的導數； $f(t)\Delta t$ 表示部件在時間t的區間內不發生故障，但是在 $\Delta t$ 的區間內發生故障的概率，這裏 $\Delta t$ 是一個接近於0的區間。作爲 $f(t)\Delta t$ 的定義的一部分，我們這裏再次假設部件在區間開始時是從初始開始工作的。“初始工作”的假設被應用於所有的計算，我們在後邊的討論中將不會再次詳細說明這一點。

對於指數分佈，我們的密度函數 $f(t)$ 是
$f(t)=\lambda e^{-\lambda t}$

每小時恆定失效率模型,之所以會叫這個名字，是因爲對於時間相關的失效率 $\lambda(t)$ 的形式化計算僅僅給出了常數 $\lambda$ 。恆定失效率 $\lambda$ 的估計可用於不同種類數據源中的各種部件。分析人員需要爲其故障樹上應用恆定故障率模型的每個組件故障獲取 $\lambda$ 值。表XI-1給出了一些不同種類部件失效的有代表性的失效率；數據選自WASH-1400（參考【38】）

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-wu7q1EiN-1586708457788)(asserts/tableXI-1.png)]

在故障樹的評估中，極端的準確度是沒有必要的（也是不可信的）；對於故障率我們需要關注的是數量級的大小，例如，故障率是每小時 $10^{-6}$ 還是 $10^{-5}$ 。對於這個“大小的數量級”的準確度，詳細的環境和詳細的組件規格通常對獲得故障率的總體估計並不重要。但是分析人員當然還是需要使用所有的有效的信息來對每一個部件和故障樹上每一個基本事件獲取儘可能準確的對 $\lambda$ 的估計。

因爲故障樹評估並沒有對精度就很高的要求，因此指數分佈可以利用一階項來近似，以簡化計算。累積指數分佈，比如指數不可靠性，可以近似爲
$F(t) \approx \lambda t \tag{XI-5}$

上面的式子對於失效概率（F(t））的誤差在5%以內，小於0.1並且在保守端有很細微的誤差。
此外，與 $\lambda$ 的不確定性相比，該誤差更小。

在 $lambda$ 模型中使用的故障率可以是就緒故障率，也可以是操作故障率；數據源給出了這兩種故障率形式。如果 $\lambda$ 是就緒故障率，那麼公式XI-5的時間區間t就是就緒時間t，例如從部件準備好實際操作的時間區間。在這種就緒情況下， $F(t)$ 就是故障將在就緒狀態下出現的概率。如果 $\lambda$ 是操作故障率，那麼t就是實際操作時間區間， $F(t)$ 就是故障發生在操作時的概率。許多部件都有就緒狀態故障率和操作故障率；例如，一個抽水泵就有在不工作時的就緒故障率和工作時的操作故障率。分析人員必須確認在合適的時期使用正確的故障率。相對於就緒和操作階段，總故障的表達爲
$F_s(t_s)+(1-F_s(t_s))F_o(t_o) \approx F_s(t_s)+F_o(t_o)$
其中，下標s表示就緒階段，下標o表示操作階段。對於很小的概率（比如0.1），我們能簡單的將概率相加。

11.3.3 每小時恆定失效率模型：可靠性特徵

前一節已經講過， $R(t)=1-F(t)$ 表示時間t內沒有故障的概率，部件的不可靠性 $F(t)$ 表示在時間區域t內部件發生至少一次失效的概率，也表示在時間t內發生第一次失效的概率。如果部件是可修復的，那麼這個 $F(t)$ 的定義就包含了超過一個失效發生的可能性。如果這個部件是不可修復的，那麼最多隻能發生一次失效。

當我們說失效是可修復的，我們的意思是當部件異常時，部件是可以修復或更換的。維修和更換並不需要在失效發生後立即執行，而且當維修和更換開始後，也是需要一定的修復時間的。維修或更換操作的特徵在於組件的停機時間以d表示，d是該組件停機且無法運行的總時間。對於備用組件，請在可能需要該組件的情況下停機。如果工廠在故障發生後的某個時間關閉，而d只是在線停機時間段，在該時間段內仍可能需要組件運行。

$G(d)$ 表示的停機時間的累積分佈定義如下：
$G(d)=停機時間區間小於d的概率$
累積分佈可以從維修、替換的實際數據來獲得，並且爲量化評估完整的定義了維修替換過程。
讓我們用 $q(t)$ 來表示部件不可用性，並定義如下
$q(t)=在時間t部件失效並且如果被調用則無法工作的概率$
$1-q(t)$ 是部件的可用性，表示部件恢復並且能對請求正常響應的概率。
如果部件失效是不可恢復的，則只有在時間t內失效時，部件纔會在時間t停機。總的來說，對於不可維修的失效，當部件在t=0時運行，則不可用性 $q(t)$ 等於不可靠性 $F(t)$ 。
$q(t)=F(t)$
對於指數分佈，不可用性q(t)可以簡單的用下面的近似計算：
$q(t) \approx \lambda t$
對於不可維修的失效，計算故障樹評估中使用的基本組件特徵 $F(t)$ 和 $q(t)$ 所需的只是恆定的故障率 $\lambda$ .。

對於可修復的失效，部件的不可用性 $q(t)$ 不等於不可靠性，我們需要維修過程的更多的信息來計算 $q(t)$ 。

我們將假定修復將組件恢復到實質上與新組件一樣好的狀態。這個假設是樂觀的，但是常常被用到。測試效率低下的影響可以通過更復雜的分析來研究。（其他措施可以參考【37】和【41】）

對於可修復的失效，我們考慮兩種情況：1）失效被監控，2）失效沒被發現直到週期性的檢測時才發現。對於方式1，當失效時會通過警告、聲音、警告燈等形式告知操作員。這種情況下，不可用性 $q(t)$ 會快速逼近一個恆量 $q_M$ ,其形式爲
$q_M=\frac{\lambda T_D}{1+\lambda T_D} \approx \lambda T_D \tag{XI-11}$

故障率 $\lambda$ 是待機故障率， $T_D$ 是從對停機時間分佈中獲取的平均在線停機時間（通過累積分佈 $G(d)$ 描述）。被估計的停機時間也是從系統啓動期間和部件被請求（例如對災難情況的請求）的時間的在線停機時間。對於簡要的估計，停機時間通常可以分解爲幾個離散值，並具有相關的概率，並對這些離散值進行統計平均。根據公式XI-11給出的估計是保守的，對於 $\lambda T_D <0.1$ ，其準確度在10%以內。

對於那些並不是實時監視，屬於按時間段檢查的部件，任何失效都將在檢查後纔會發現。這種情況是，假設我們的檢查測試是一個月執行一次，任何發生在檢查前該月的失效只有當檢查時纔會發現。（這裏我們假設執行的是完美檢查，任何失效模式都能100%被檢查出來）

對於在區間T內的週期性的檢查，在檢查執行後，到下一次檢查之前，不可用性從第一個低的值 $q(t=0)=0$ 上升到一個高的值 $q(t=T)=1-e^{-\lambda T} \approx \lambda T$ 。因爲指數能通過一個線性函數（對於 $\lambda T<0.1$ )近似表示，則測試期間的平均不可用性約等於 $\lambda T/2$ 。如果我們假設該組件的需求在該時間間隔內的任何時間都可能均勻出現，則該平均值可用於故障樹評估。

如果在查詢檢測時發現部件發生故障了，那麼它將在必要的維修時間內保持一個停機的狀態。考慮這個額外的維修負擔，對於階段測試的部件，其總平均不可用性 $q_T$ 我們有如下的等式
$q_T=\lambda T/2+\lambda T_R \tag{XI-12}$
在上面的方程中， $\lambda$ 還是每小時的待機故障率， $T_R$ 是從停機時間得出的平均維修時間。評估的維修時間再次是部件可能被調用功能的在線維修時間。 $T_R$ 的下標 $R$ 表示這是平均維修時間，而不是由維修時間加上從失效到探測出來的停機時間的和的總的停機時間。

總的來說， $T_R$ 相比T來說，是個比較小的值，公式XI-12中右手邊的第二項是可以忽略的，於是我們有
$q_T \approx \lambda T/2, \ \ T_R<<T \tag{XI-13}$

對於可維修的失效，不可用性是通過 $g_M$ 或 $q_T$ 給出的，依賴於監控是否存在，或者在基於兩次檢查中沒有監控的情況下，週期檢查是否執行。（如果監控存在， $q_M$ 在不論任何額外的週期檢查被執行的情況下都適用）。對於每一個故障樹的可維修部件， $\lambda$ 和 $T_D$ （被監控的)或者 $\lambda$ ， $T_R$ ， $T$ （週期檢查）是作爲數據輸入。故障率數據源爲 $\lambda$ ，部件的操作說明是 $T_R,T,T_D$ 的來源。

除了部件不可用性，還有一個部件可靠性參數在操作系統評估時也十分重要。這個部件參數就是部件失效發生率(component failure ocurrence rate) $w(t)$ ，其定義如下：
$w(t)\delta t= 部件在t和t+\Delta t之間失效的概率 \tag{XI-14}$

在該定義中，我們並不能看出在給定的故障率 $\lambda(t)$ 情況下，該部件在時間t之內有沒有故障（參考第十章第八節）。事實上，如果部件是可維修的，它可以在前邊失效很多回； $w(t)\Delta t$ 是不考慮以前情況的，只看在t到 $t+\Delta t$ 區間發生故障的概率。

發生率w(t)對不可維修的和可維修的部件都適用。對於這兩種部件，在某時間段 $(t_1,t_2)$ 的故障次數，用 $n(t_1,t_2)$ 表示，通過如下的積分形式來展示
$n(t_1,t_2)=\int_{t_1}^{t_2} w(t)dt \tag{XI-15}$
對於不可維修的部件失效，部件只可能失效一次。因此，w(t)等於第一次失效的概率密度函數
$\begin{aligned} w(t)&=f(t) \\ &=\lambda e^{-\lambda t} \end{aligned} \tag{XI-17}$
這裏公式XI-17是針對恆定的失效率模型( $\lambda$ 模型)

對於t小於 $1/\lambda$ 的情況（比如 $\lambda t<0.1$ ), $e^{-\lambda t}$ 約等於1，因此公式XI-17就變成
$w(t)\approx \lambda ,\ \ \lambda t<.1.$
對於可維修的失效，w(t)可以是關於時間的複雜函數；但是，隨着時間的推移它會逐漸逼近 $\lambda$ ，而且這個這個接近值 $\lambda$ 對於大多數應用來說精度也已經足夠了。
$w(t) \approx \lambda$
因此，不論對於不可修復的還是可修復的失效， $w(t)=\lambda$ 都是一個合理的近似。（下一章的一些計算機代碼可以討論w(t)的時間相關值）。

11.3.4 每週期固定失效率模型的可靠性參數

代替將組件故障建模爲每小時具有恆定的失效率，我們可以使用每個週期恆定失效率模型。在週期固定失效率模型中，部件被被假設當被請求時（例如每一次循環），具有固定的失效概率。每次循環的故障概率，我們用p來表示，獨立於任何已知的時間區間，比如測試之間的時間區間或者部件的就緒時間。

當組件固有的失效而不是由與暴露時間相關的“外部”機制引起的失效時，將應用週期固定失效率模型（我們簡稱爲p模型）。對於循環失效，部件的循環或許會真正的造成失效（因爲壓力等原因）。例如，一個從供應商那裏獲取的部件，馬上就應用到現場，因爲存在製造缺陷，就可以建模爲有着固定失效概率p的模型。在進行操作前測試（即老化測試）之後，將檢測到許多固有組件失效，然後可以通過 $lambda$ 模型（即每小時恆定失效率模型）對故障進行最佳建模。

在過去的實際使用中，p模型僅用於相當少的部件，而 $\lambda$ 模型（每小時恆定失效率模型）被用於絕大多數的部件中。分析人員必須清楚的判定哪種模型是當前分析中最適用的。失效率數據有時候也能提示哪種模型更爲適合；另一方面，分析人員必須基於失效原因的知識和機制來判斷哪種模型是最合適的。

p模型的可靠性特徵是十分直接的，所有都是基於一個特徵值p，也就是每次循環（每次請求）的失效概率。我們再次使用公式XI-8到公式XI-11中曾經使用的部件不可靠性F(t),部件不可用性q(t)的定義。對於時間t內的n次需求，假設失效互相獨立，可靠性 $R_c$ 和不可用性 $q_c$ 可以用下式中得出
$R_c=1-q_c=(1-p)^n$
$1-R_c=q_c \approx np, \ \ np<0.1$
上式中，可靠性和不可用性都和時間無關，但是和時間內的循環數有關。對於一次請求(n=1),我們注意到 $1-R_c=q_c=p$ 。對於p模型建模的故障樹的每個部件，使用者必須獲取合適的p值和請求的次數（大多數是1）。

11.3.5 最小切割集的可靠性參數

當部件的可靠性參數被獲取，那麼最小切割集的可靠性參數就能被估計。對於一個就緒系統的故障樹，比如核能安全系統，理論有關的特徵參數就是最小切割集的不可用性，用Q表示：
$Q(t)=最小切割集的所有部件在時間t停機並且無法工作的概率 \tag{XI-22}$
因爲最小切割集能被看成是系統的特定失效模式，所以我們能將Q定義爲
$Q(t)=在時間t因爲指定的最小切割集導致的系統停機的概率 \tag{XI-23}$
我們能把Q(t)叫“因爲一個最小切割集導致的系統不可用性”。

我們鞥對故障樹的最小切割集進行任何形式的編號， $Q_i(t)$ 是最小切割集i的不可用性。爲了確定 $Q_i(t)$ 我們注意到，根據定義，最小切割集是關聯部件失效的交集；最小切割集失效僅在所有部件失效發生時才發生。假設這些部件的失效互相獨立，回想第七章（公式VII-3），一個交集（例如：一個與門）的概率是部件概率的乘積。於是
$Q_i(t)=q_1(t)q_2(t)...q_n(t) \tag{XI-24}$
這裏 $q_1(t),q_2(t)...$ 是特定最小切割集中部件的不可用性， $n_i$ 是切割集中部件的數量。舉一個公式XI-24的例子，如果一個最小切割集有兩個部件，各自的不可用性分別是 $1\times 10^{-2}, 1\times10^{-3}$ ，那麼切割集的不可用性爲
$Q_i=(1\times 10^{-2})(1\times 10^{-3})=1\times 10^{-5}$
部件的不可用性已經在上一節進行了討論；任意部件不可用性的組合都能被運用（比如一個部件可以是週期檢查的，而另一個具有循環失效率等）。如果最小切割集的部件都是可修復的或者都是循環的，那麼恆定值就能用於部件的不可用性，比如，（公式XI-10或XI-11），在那些我們忽略任何時間有關的瞬態行爲內。在我們的近似範圍內，對於這些完全可修復的或者循環的例子，最小切割集的不可用性是時間無關的簡單的恆定值。

如果故障樹是關於操作系統的，那麼相對於不可用性，系統失效的數量和系統失效的概率就是我們最關心的。一個可靠性相關信息的最小切割集參數且最容易計算的就是最小切割集的出現率，用 $W(t)$ 表示。最小切割集出現率 $W(t)$ 通過以下形式定義：
$W(t)\Delta t=最小切割集失效在時間t和\Delta t之間出現的概率 \tag{XI-25}$
$\Delta t$ 是一個非常小的時間增量。發生率 $W(t)$ 是每個單位時間內最小切割集失效出現的概率。因爲一個最小切割集可以被看作是系統失效的，因爲我們可以等效的定義 $W(t)$ 爲
$W(t)\Delta t=特定最小切割集導致系統在時間t和\Delta t 之間失效的概率 \tag{XI-26}$
如果我們對故障樹上的所有最小切割集編號，那麼 $W_i(t)$ 指的是最小切割集i出現率。

爲了計算 $W_i(t)$ ，我麼使用最小切割集的基本定義以及一個“發生”的概念。如果除了一個以外的所有部件都在時間t停機而另一個部件在時間t到 $t+\Delta t$ 之間停機，那麼一個最小切割集失效發生在時間t和 $t+\Delta t$ 。假設部件失效是獨立的， $W_i(t)$ 可以通過以下形式給出：

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-oaCOI7Y6-1586708457789)(asserts/equationXI-27.png)]

這裏 $q(t)$ 是部件的不可用性，w(t)是部件的發生率（公式XI-14）。公式XI-27右手邊第一項是除了部件1其他所有部件在時間t停機然後部件1失效的概率。第二項是部件2在時間t和 $t+\Delta t$ 之間停機，其他所有部件都已經停機的概率。每一個在時間t到 $t+\Delta t$ 之間失效部件的貢獻是在切割集中的 $n_i$ 個部件相加來獲取公式XI-27給出的總的發生率。公式XI-27的 $\Delta t$ 抵消，得出

當所有部件都有一個每小時失效率（ $\lambda$ 模型），那麼最小切割集發生率 $W_i(t)$ 是嚴格適用的。前文說明的那類週期部件(p模型)，並沒有任何明確的時間有關的行爲。如果我們用於循環部件 $q_c(t) \approx n(t)p$ , 且 $w_c(t)\approx pk(t)$ ，那麼上面的式子（XI-28）能用於具有周期部件的最小切割集，其中p是週期部件失效概率，n(t)是時間t內（期望的）請求數量，k(t)是在時間t每個單位時間一次請求的發生概率。（因此 $k(t)\Delta t$ 是在t到 $t+\Delta t$ 之間的一次請求的概率）。n(t)和k(t)必須從部件的運行情況的思考中得到。

在某時間區間 $t_1,t_2$ ，最小切割集i發生故障的期望數量 $N_i(t_1,t_2)$ 是
$N_i(t_1,t_2)=\int_{t_1}{t_2}W_i(t)dt \tag{XI-29}$

如果最小切割集中的部件都是可修復的，並且部件的不可用性和發生率都是恆定值（忽略任何瞬態），那麼 $W_i(t)$ 也是恆定值， $W_i(t)=W_i$ 。在這個恆量案例下， $N_i(t_1,t_2)$ 就等於將時間區間乘以恆定的最小切割集發生率。
$N_i(t_1,t_2) = (t_2-t_1)W_i \tag{XI-30}$
因爲每當最小切割集失效發生，則系統失效發生（由最小切割集蒂尼得出），所以對於最小切割集i， $N_i(t_1,t_2)$ 是在 $t_1,t_2$ 區間的系統失效次數的期望值。當所有部件是不可修復的，那麼 $N_i(t_1,t_2)$ 也是在 $t_1,t_2$ 區間的最小切割集失效的概率（在這個例子中，期望值等於概率）。甚至當部件是可修復的，如果一段時間系統失效概率非常小（比如小於0.1），那麼 $N_i(t_1,t_2)$ 就小於1。即時 $N_i(t_1,t_2)$ 是嚴格的失效期望值，對於最小切割集在時間段 $t_1$ 到 $t_2$ 中失效的概率，這也是一個很好的近似值。這個對於可修復的例子的近似是保守的（真正的概率會比這個略小一些，但已經相當準確，對於 $N_i(t_1,t_2)<0.1$ ,真實的概率偏差會在10%以內）。

使用我們前邊的術語定義，最小切割集失效的概率是最小切割集的不可用性，因此，由於以上的原因，當 $N_i(t_1,t_2)<0.1$
$N_i(t_1,t_2) \approx 時間t_1到t_2之間最小切割集的不可用性$
在系統故障方面，當 $N_i(t_1,t_2)<0.1$ ，對於最小切割集i, $N_i(t_1,t_2)$ 在時間 $t_1,t_2$ 之間可以近似等於系統失效概率。我們可以說，在我們的近似範圍內，對於最小切割集i， $N_i(t_1,t_2)$ 就是系統不可用性。當一些部件是可修復的，準確的最小切割集和系統不可用性相當難以計算，所以 $N_i(t_1,t_2)$ 成爲了一個有用且相對準確的近似計算方法，這種方法對於大部分的應用都是很好的。

對於故障樹評估，最小切割集 $Q_i(t)$ 和最小切割集發生率 $W_i(t)$ 給出了最小切割集概率行爲的綜合信息。如果是一個打擊系統，比如核能安全系統被評估，一般只計算最小切割集不可用性 $Q_i(t)$ 。需要爲故障樹上所有主要的最小切割集計算最小切割集的參數。對於數量較少的最小切割集，可以計算故障樹上所有最小切割集的參數。對於具有大量最小切割集的故障樹，可以只計算低階切割集的最小切割集參數，比如單元素或雙元素的最小切割集。因爲部件失效假設互相獨立，所以高階切割集（三部件以上的）的 $Q_i(t),W_i(t)$ ，相比低階的，可以忽略。獨立性假設代表一個最佳條件，並且因爲部件失效之間的獨立性原因，兩部件或以上的真實的切割集參數，可能會比計算得來的 $Q_i(t)，W_i(t)$ 高很多。如果故障樹只有兩階或更高的切割集，那麼 $Q_i(t),W_i(t)$ 的計算值表示主要用於相關評估的設計能力數量（//TODO:這裏翻譯的有點問題）； $Q_i(t),W_i(t)$ 的實際達到的值可能會高的多，並且會非常難以估計。（參閱參考12）

11.3.6 系統（頂級事件）可靠性參數

一旦獲取到最小切割集，則系統參數的決定就十分簡單了。系統不可用性 $Q_s(t)$ 通過以下形式定義
$Q_s(t)=在時間t系統停機且無法響應工作的概率 \tag{XI-32}$
對於一個待機系統，比如核能安全系統， $Q_s(t)$ 是十分關鍵的系統參數。如果故障樹的頂層事件
並不是系統失效二是一些基本事件，那麼 $Q_s(t)$ 就是頂層事件在時間t時存在的概率（在更早時已經發生過且維持到時間t）

現在，當且僅當任意一個或更多的最小切割集停機，系統纔會停機。如果我們忽視兩個或以上最小切割集同時停機的概率，則系統不可用性 $Q_s(t)$ 可以約等於最小切割集不可用性 $Q_i(t)$ 的和。
$Q_s(t) \approx \sum_{i=1}^{N}Q_i(t) \tag{XI-33}$

這裏 $\sum$ 代表涵蓋故障樹中N個最小切割集的 $Q_i(t)$ 的和。

公式XI-33，叫做“稀有事件近似（rare event approximation)，我們在第六章曾經講過。對於 $Q_s(t)<0.1$ ，它與真實值的誤差在10%以內。更進一步講，所犯的任何錯誤都是保守的，因爲實際不可用性略低於方程式（Xl-33）計算的不可用性。公式XI-33經常用於故上述評估，它計算方便，它能根據任何N值縮減，以僅考慮那些對 $Q_s(t)$ 影響最大的切割集。如果部件的失效都是可修復的或者週期的，且不可用性是恆定值，那麼 $Q_s(t)$ 就是時間無關的，並且是一個簡單的恆定值 $Q_s$ 。

對於在線的操作系統，系統失效發生率 $W_s(t)$ 是經常關注的，其定義如下：
W_s(t) \Delta t = 在時間t到t+\Delta t之間系統失效的概率 \tag{XI-34}$

發生率 $W_s(t)$ 本身代表在時間t每單位時間的系統失效概率（對於任意常規頂層事件，W_s(t)$是時間t每單位時間發生頂層事件的概率）。

當且僅當任意一個或多個最小切割集發生，系統失效纔會發生。系統失效發生率 $W_s(t)$ 可以作爲最小切割集發生率 $W_i(t)$ 的和來表達。
$W_s(t) = \sum_{i=1}^{N}W_i(t) \tag{XI-35}$

公式XI-35是稀有事件近似的另一個應用。它在低概率事件的時候非常精確，因爲這樣的事件，它的兩個或以上最小切割集同事發生的概率是可以忽略的。公式（XI-35）仍然易於評估，可以將其截斷，以便僅考慮N個主要的最小切割集的影響。

如果我們使用 $W_s(t)$ ，在時間 $t_1,t_2$ 期間的系統失效的期望次數 $N_s(t_1,t_2)$ 是
$N_s(t_1,t_2) = \int_{t_1}^{t_2}W_s(t)dt \tag{XI-36}$
作爲上式中的特殊應用，系統在時間t內失效的期望次數 $N_s(t)$ 是
$N_s(0,t)=\int_0^t W_s(t')dt'$
如果部件失效都是可修復的或者循環的，且部件的不可用性是一個恆定值，那麼 $W_s(t)$ 是一個恆定值 $W_s$ ,並且 $N_s(t_1,t_2)$ 就是區間 $t_2-t_1$ 乘以 $W_s$ 的積。

對於最小切割集 $N_i(t_1,t_2)$ 應用相同的邏輯，對於 $N_s(t_1,t_2)$ 小於0.1, $N_i(t_1,t_2)$ 同樣是系統在 $t_1,t_2$ 之間相對準確的近似值，也就是系統的不可靠性。

$N_s(t_1,t_2) \approx 系統在t_1與t_2之間的不可靠性$
因此， $N_s(0,t)$ 就是系統在時間區間t中的相對準確的不可靠性。

系統的不可用性 $Q_s(t)$ ，系統的失效發生率 $W_s(t)$ ，系統失效的期望次數 $N_s(t_1,t_2)$ 給出了系統故障的概率描述相關的廣泛的信息。通過使用這些結果，讀者必須記住這些計算過程中使用的假設和限制，特別是部件故障發生之間相互獨立的假設。作爲討論最小切割集的參數，如果故障樹只有兩個或以上的切割集，那麼由於部件間失效的相互獨立性，系統計算結果或許會比真實值低很多。當這些依賴關係存在的程度極大地提高了故障概率，那麼 $Q_s(t),W_s(t),N_s(t)$ 代表最佳設計數字，這個數字對於相對評估有用，但是對於絕對評估沒有用。

11.3.7 最小切割集和部件權重

作爲一個附加的估計，我們描述一個決定每一個最小切割集和每一個部件失效的權重的量化技術。我們將最小割集重要性定義爲特定的最小割集對系統故障概率的作用。我們定義部件權重爲特定部件失效對系統失效概率的作用。不同的公式可以擁有計算權重（對於不同的方法，可以參考【21】），在這裏我們使用一種最簡單的方法來計算權重。

可以根據系統不可用性 $Q_s(t)$ ，或系統失效發生率 $W_s(t)$ 來計算最小切割集和部件的權重。這兩面的規則是一樣的：爲了計算最小切割集的權重，我們我們採用最小割集參數與系統參數之比。對於部件權重，我們將所有包含該部件的最小切割集的參數相加，然後除以系統的參數。

用 $E_i(t)$ 表示時間t時最小切割集i的權重， $e_k(t)$ 爲部件k在時間t的權重（我們將最小切割集和部件用簡單的表示方法編號）。關於系統不可用性
$E_i(t)=\frac{Q_i(t)}{Q_s(t)}= 最小切割集i對於系統不可用性影響的分數 \tag{XI-39}$

且

$e_k(t)=\frac{\sum_{k in i}Q_i(t)}{Q_s(t)}= 部件k的失效對系統不可用性的影響的分數 \tag{XI-41}$

公式XI-41中的求和符號表示涵蓋所有那些包含部件k作爲其一個部件的最小切割集的 $Q_i(t)$ 的和。因爲系統只會在一個或更多切割集失效的時候停機，因此公式XI-41中的 $Q_i(t)$ 的和就是由於部件失效k成爲其中一個原因的系統停機的概率。鑑於系統已經關閉,根據條件概率， $E_i(t)$ 約等於系統因爲最小切割集i而停機的概率。鑑於系統已經關閉， $e_k(t)$ 約等於系統由於部件k成爲原因之一而停機的概率。（由於忽略了最小割集的交集，因此數量是近似的，即使用了稀有事件近似）

當所有的部件都是可修復的或者週期的，並且部件的不可用性是恆定的，那麼權重 $E_i(t),e_k(t)$ 也是恆定的且與時間無關： $E_i(t)=E_i,e_k(t)=e_k$ 。最小切割集和部件的權重因此能從最大到最小排序，而不用考慮時間。

關於系統失效發生率，最小切割集權重 $\hat{E_i}(t)$ 和部件權重 $\hat{e_k}(t)$ 爲
$\hat{E_i}(t)=\frac{W_i(t)}{W_s(t)} = 在時間t最小切割集i對系統失效發生率的影響的分數 \tag{XI-44}$

$\hat{e_k}(t)=\frac{\sum_{k in i}W_i(t)}{W_s(t)} = 在時間t部件k作爲其中一個貢獻者的系統失效發生的分數 \tag{XI-46}$

以上兩個公式的推論與之前使用的推論相同。關於 $\hat{e_k}(t)$ ,部件k是定義成爲在時間t系統的失效貢獻者之一，如果其在時間t已經故障或在時間t發生故障。如果所有組件參數是恆定值，則 $\hat{e_k}(t),\hat{E_i}(t)$ 仍然是簡單常數，可以不考慮時間從高到低進行排序。

爲了便於讀者使用，表格XI-2，XI-3總結了所有估計故障樹的相關公式。

11.3.8 敏感度估計和不確定度分析

在上一節的內容裏，我們描述了不可用性的點估計的計算和故障樹的頂層事件的故障發生率。在本節中，我們簡要討論瞭如何評估這些估計值對組件數據或模型中的變化或不確定性的敏感性的問題。

敏感性研究是評估各種變化對部件數據和這故障樹的影響。我們使用上一章所講的公式來評估部件數據的效果是十分方便的，因爲它們非常準確的包含了部件失效率，測試區間，以及作爲變量的維修時間。。在敏感度測試中，我們經常賦給這些變量不同的值，以確定其結果的不同點。例如，如果T是一個週期性的測試區間，那麼系統不可用性的效果就能依據不同的區間T的值來研究。這可能需要像使用不同的T重新進行計算一樣簡單的計算，也可能需要採用動態編程來實現複雜的計算。同樣，可以更改故障率 $\lambda$ ，以確定升級或降級組件可靠性的影響。

作爲敏感性研究的一種，還可以通過對樹上的特定事件使用高失敗率和低失敗率來執行範圍界定評估（scoping-type evaluations)。如果系統不可用性變化的並不明顯，，那麼事件就並不重要，沒必要在上邊花費過多的精力。如果系統不可用性變化的十分明顯，那麼需要獲得更多更準確的數據，或者事件必須進一步開發以獲取更多的基本原因。一個大範圍的敏感性分析可能被執行，這取決於工程師的需求。

在判斷影響的重要性時，分析人員必須考慮其數據的準確性，這一點很重要。例如，儘管當故障率已知爲3個有效數字時，系統不可用性的2倍變化可能非常顯着，但是當故障率僅已知一個數量級時，相同的2變化因數可能並不重要。//TODO:這句話翻譯的有點問題

作爲敏感性評估的一種，由於可能的數據不確定性或可變性，可以執行形式錯誤分析來確定任何最終結果中的錯誤擴散。爲結果獲得的誤差分佈給出了與結果相關的不確定性或可變性。誤差分析採用統計或概率技術，它們獨立於故障樹評估技術本身；因此，討論應簡短一些。

各類誤差分析技術已經得到了應用，我們將大概的解釋一下當數據作爲隨機變量處理的相關方法。對於隨機變量方法，故障樹評估最適合的方法是蒙特卡洛模擬技術。蒙特卡洛方法可以適用於常規分佈，誤差的常規大小，以及依賴性。

在蒙特卡洛方法中，故障樹評估被重複好多次進行，每一次都使用不同的數據（比如 $\lambda$ 和 $T_R$ )。通過從概率分佈函數中隨機採樣來“模擬”數據值的變化，該概率分佈函數描述了數據的變化性。概率分佈可以是 $\lambda,T_R$ 等參數上的貝葉斯先驗分佈，或者可以是表示故障率和其他數據在工廠間變化的分佈。每次試驗計算將爲感興趣的系統結果提供一個值，例如系統不可用性或發生率。整個重複計算的整個集合將給出一組系統結果，從該系統結果中確定誤差分佈（例如，選擇5％的最大值和95％的最大值以表示結果的90％範圍）。

上面的方法相當於於重複試驗很多次來在試驗數據中確定誤差。最終在結果上體現的誤差是產生於不同類結果的最終誤差擴展是對由失敗率和其他數據作爲隨機變量的可變性引起的結果可變性的估計。(第十二章第2節講述了一些基於原始故障樹蒙特卡洛模擬的計算機代碼)

第十二章故障樹評估計算機代碼

12.1 可用代碼概述

本章講述了故障樹分析中可用的計算機代碼。這些代碼分成了五個組（group），括號中的數字是參考書目中的參考文獻。

第一組由故障樹的定性評估代碼組成（比如計算最小切割集或路徑集的代碼）。第二組代碼執行基於切割集的結構信息的量化分析（概率分析）。第三組代碼用於不用計算最小切割集作爲必要的中間步驟，而進行故障樹的直接數字估計；但是，他們中的大部分都要生成切割集，作爲分析的附加部分。PLMOD，一個雙目標代碼，他可以在故障樹的定量分析和定性分析中使用，它在第四部分進行闡述，最終，第五組包含了用於共因分析的代碼。這五個代碼組將在後續的幾節內容中進行闡述。

12.2 故障樹的定性分析計算機代碼

這一節我們分析計算最小切割集（路徑）的代碼。最小切割集的計算常常意味着故障樹的定性估計，因爲它的結果只基於故障樹的結構，而和基礎事件的概率無關。與之相對應的是，概率估計經常被看作故障樹的定量估計。

定性和定量的劃分是十分自然的，因爲概率分析經常包含多次重複的故障樹估計（比如在不同的時間點，使用失效或維修率的分佈來執行敏感性或錯誤分析）。因此，執行非常耗時的單次結構分析它經常是最有效率的，以一些方便的形式保存結果，使用這些結果通過按照要求使用不同的數據集合對故障樹進行量化分析。計算最小切割集帶來的其他優勢有：

最小切割集給分析人員很多非常有用的信息，即時沒有任何定量數據，因爲他們指出了部件失效會導致系統失效的那些部件的最小切割集；
沒有貢獻的切割集（通常基於切割集大小）可以被優先在量化分析中捨棄，因此會提升計算效率並降低數據需求；
將最小切割集和原始樹進行比較的能力提供了一個有價值的誤差檢查；
切割集是常見原因分析代碼輸入的一部分。

最小切割集代碼的一個不足是，即使是一個普通大小的故障樹，其過程的存儲和計算時間也常常是非常巨大且不能承受的。這是因爲切割集的數量會隨着門的數量呈指數上漲，並會輕易達到M級甚至G級（比如一個299個基本事件的書，有着324個門，有着超過64M個切割集）。因爲事件和門的簡單數量不足以表明最小切割集的數量，因此問題會變的更加複雜，而且即使是最小切割集的數量也不足以預測所需要的過程時間。因此預測一個故障樹的存儲需求和執行時間是十分困難的。

可以使用幾種方法來克服或減輕獲取最小切割集的問題。其中最常用的是在過程中取消那些集合大小（事件數量）超過預設數量n的切割集。這對一些有着低階切割集的故障樹非常有效，這些切割集通常控制高階切割集。在WASH-1400【38】中，只有單一的或兩個的時間切割集爲獨立失效計算所保留；更高階的切割集僅用於常規模式和常規原因失效可能性分析。另一種方法是直接依據切割集的概率而不是它是低階或高階的來化簡故障樹。但是這需要一開始就提供部件失效概率的輸入。使用故障樹化簡的不足之處有：

無法判斷總的被捨棄的失效概率
依賴性分析，比如事件對於基本原因的依賴性，這需要對高階切割集進行分開估計

一些代碼中使用的其他技術是有效的“打包”和/或位級存儲方案，在切割集處理期間使用輔助存儲介質以及自動樹分解方案。後者似乎是一種有前景的方法，將在後邊的章節中進行討論（SETS，FTAP和PL-MOD節的內容）。

在本節剩下的內容中，我們討論了單獨的定性分析代碼。第1（a)節中PREP是第一個切割集代碼。它包含了背景介紹，其具體方法實際已經被後續的方法所取代。1（b）到（g)的各節介紹了不同的方法，其採用了第七章介紹的不同類型的“從頂向下”或“自下而上”的方法。第四節，SETS與其他代碼有些不同，因爲它提供了一種非常通用且靈活的工具，以其相應的布爾方程式的形式來處理故障樹。

（a)PREP

PREP和KITT代碼【40】【42】，基於IBM 360平臺，用FORTRAN IV語言在1970年完成，是第一個故障樹估計代碼。PREP是最小切割集（或路徑集合）生成器，KITT1和KITT2使用PREP的結果，在動力學樹理論（Kinetic Tree Theory）的背景下執行時間相關的故障樹分析。KITT代碼將在量化分析章節中進行討論。

PREP包含兩個部分：PREP-TREBIL和PREP-MINSET。TREBIL(“tree build”)使用用戶的故障樹的輸入描述，並建立一個故障樹布爾方程的FORTRAN子程序。MINSET使用TREBIL的故障樹子程序來找到故障樹的最小切割集以及路徑集合。

PREP-MINSET有兩個最小切割集生成選項：COMBO和FATE。COMBO系統的對所有單一基本事件，結對基本事件以及三個基本事件一組的等等進行失效分析，來確定那個組合導致頂層事件的發生。用戶決定用於計算的切割集的最大大小（對於低概率事件，例如核能設備故障樹，兩個和三個的已經足夠）。FATE結合部件的可靠性量化數據來找到最可能發生的最小切割集。它通過執行蒙特卡洛模擬來實現。

PREP最主要的不足是對於一個大故障樹的高階要求切割集，COMBO需要巨量的計算時間，而FATE並不能保證找到所有的最小切割集。同樣的，PREP的輸入被限制到與門和或門，於是非門，不論是明確的還是非明確的（比如異或門），都是禁止的；特殊的門，比如n輸入k輸出的門，必須依據它們基礎的與門和或門的結構進行輸入。基本時間被假設爲互相獨立的；非限制的重複事件是允許的；沒有辦法去生成中間門的切割集；沒有簡單的方法來輸入樹的重複部分。PREP最多允許2000個部件和2000個門；COMBO生成的最小切割集被限制到最大10個部件。

(b) ELRAFT

ELTAFT(efficient logic reduction of fault tree)代碼[35]使用唯一的自然數的因數分解屬性來找故障樹的最小切割集。每個大於1的整數都可以表示爲素因子（prime factors）的唯一（排除次序）乘積。在這個代碼中，每一個基本事件被分配一個唯一的素數。樹是從下往上處理的，連續的高層級門的切割集被表示爲何他們輸入事件相關的數字的乘積。ELRAFT最主要的缺點就是，對於很大的樹，素因子的乘積會很快超過計算機的容量。FORTRAN IV CDC 6600平臺的代碼，ELRAFT能夠爲頂部事件和其他指定的中間事件找到最多六個基本事件的最小切割集。

（c) MOCUS

MOCUS代碼【11】完成於1972年來爲KITT代碼作爲最小切割集生成器來取代PREP代碼。名爲“布爾值表示的切割集”（BICS）是通過從頂部事件開始，連續進行替換到門方程中而生成的，直到樹中的所有門都被基本事件替換爲止。如果樹沒有包含重複事件，那麼BICS將會是最小的；否則，不是最小的BICS必須被捨棄。MOCUS原理可以在給定的樹中查找最多20個門的最小切割集或路徑集。如果需要，用戶可以設置找到切割集的長度的最高限制。MUCOUS代碼的其他方面與PREP相同。 MUCUS是用FORTRAN IV編寫的，用於IBM 360系列計算機。

(d) TREEL & MICSUP

TREEL和MICSUP [29]基於類似於MOCUS中使用的思想，除了MICSUP（最小切割集向上）不是從頂部事件向下進行工作，而是從最低級別的門基本輸入開始，並向上運行至頂部樹事件。TREEL是一個預處理器，它檢查樹是否有錯誤，並預先確定指示的布爾值和路徑集的最大數量和最大大小。作爲從下到上處理樹的結果，MICSUP具有爲樹的每個中間門生成BICS的優勢。非最小BICS和長度大於用戶指定限制的BICS可以在出現時丟棄，從而減少了計算機時間和存儲要求。與MOCUS一樣，代碼的大多數其他方面與PREP相似。

（e) ALLCUTS

搜尋最小切割集的另一個代碼是由Atlantic Richfield Company開發的ALLCUTS [39]。 ALLCUTS使用自上而下的算法，類似於MOCUS的算法。輔助程序BRANCH可用於檢查輸入，並交叉參考門和輸入事件，而繪圖程序KILMER可用於基於故障樹輸入描述和對話式繪圖指令來生成故障樹的Calcomp繪圖。 ALLCUTS可選地允許輸入基本事件概率數據。如果輸入了此數據，ALLCUTS可以計算最高事件概率，以概率的降序對多達1000個最小切割集進行排序和打印，並在指定的概率範圍內選擇切割集。ALLCUTS能處理高達175個基本事件和425個門事件；當前版本的代碼使用110 K（八進制）。 ALLCUTS用FORTRAN IV和COMPASS（彙編語言）爲CDC 6600計算機編寫。

(f) SETS

SETS(Set Equation Transformation System[46]),是由Sandia Laboratories開發的一個基礎程序，用於故障樹的布爾方程處理和尋找最小切割集或路徑集合。SETS代碼的優點是它的通用性和靈活性，其中一個例子是可以通過SETS用戶程序動態操縱樹的能力。此功能爲用戶提供了對處理的大量控制，此功能在分析大樹時特別有用。例如，可以編寫SETS用戶程序來分解原始樹並分階段處理它，而無需對原始故障樹輸入描述進行任何更改。最近添加的功能使SETS能夠自動識別獨立的子樹並選擇階段以有效處理大型樹。 SETS的其他功能是打包的位級存儲方案和輔助存儲的使用，旨在有效處理大型樹。

與PREP，ELRAFT，MOCUS，ALLCUTS和MlCSUP不同，SETS可以處理補充事件（complemented event)，異或門和由用戶定義的任何有效布爾表達式表示的特殊門。這能用於查找任意中間級門的“素隱含數（prime implicants)”(這是一個比最小切割集更基本的術語，它包含一個在一個布爾方程裏的事件和它的補充的概率)。其他有用的功能是自由字段輸入，方便處理重複子樹輸入的能力，爲文件中的任何事件保存切割集或分解式的選項，以備將來使用。分解式是最小割集方程的緊湊形式，可以出於枚舉目的從中生成任何順序的割集。

SETS允許基於割集順序和割集概率來減少樹。還將按降序排列（並輸入基本事件概率）對最小割集進行排序和打印。 SETS是用FORTRAN編寫的，用於CDC 6600。

(g) FTAP

FTAP(Fault tree analysis program[43])是由加利福尼亞伯克利大學功能研究中心研發的最小切割集生成代碼。FTAP是唯一提供給用戶三個過程方法的代碼：自上而下，自下而上，以及"Nelson"方法。自上而下和自下而上基本類似於MOCUS和MICSUP的方法。Nelson方法採用了素隱含數原理，它適用於包含補充事件的樹，並結合了自上而下和自下而上的技術。除SETS之外，FTAP是唯一的故障樹代碼，它可以計算素隱含數。

FTAP使用兩種基本技術來減少產生的非最小割集的數量，從而提高代碼的效率。自下而上和Nelson方法中使用的第一種技術是模塊化分解。這種方法與PL-MOD中使用的方法非常相似（請參見第4節），並且與用於識別和處理獨立子樹的SETS算法（請參見本章（f）節）有些相似。第二種技術，在從上之下方法和Nelson方法中都用到，在FTAP文獻【43】中被叫做“對偶原理（dual algorithm)”。這個原理涉及到將和的乘積到乘積的和，然後使用一種特殊的方法進行對偶運算。作者聲稱，在對偶的構造過程中出現的非最小集“將始終少於[和的原始乘積]中此類集的數量，通常少很多倍”。，

其他FTAP的特性是基於切割集順序或者概率來化簡故障樹的能力，查找路徑集合或者切割集合的能力，對稱門（n入k出）的直接輸入的能力，以及相當的靈活性和處理過程中和輸出中用戶的控制能力。

FTAP用FORTRAN和彙編語言編寫，在CDC6600、7600和IBM360-370平臺上運行。

12.3 故障樹量化分析的計算機代碼

這一節內容涵蓋如何進行故障樹量化評估的代碼。這些代碼的輸入有兩部分：

頂層事件不可用性或不可靠性的方程（經常從最小切割集，但是也能從非故障樹模型中獲取，比如模塊圖或者原理圖）
出現在公式中的部件的失效率，測試和維修數據。
根據以上的輸入，量化結果的一些類型可以被計算，包括：

數值概率：系統和部件失效率的概率
量化權重：系統和部件失效的權重
敏感度估計：誤差綁定的模型和數據內變更的效果

分別在第2(a)和2©節描述的KITT和FRANTIC的代碼，計算系統失效概率的時間平均和時間依賴的點估計。KITT也計算量化權重。第2(b)節中的SAMPLE和MOCARS，根據組件故障特徵的不確定性，誤差或變化，計算系統故障概率的分佈和誤差範圍。

(a) KITT代碼

KITT1和KITT2【40】【42】基於故障樹的最小切割集或路徑集的描述，執行時間相關的故障樹的量化。因此，這些代碼可以與任何定性分析代碼一起使用，這些定性分析代碼會根據成分（基本事件）（例如PREP，MOCUS，SETS等）生成最小切割集。PREP和MOCUS以直接可用作KITT代碼輸入的形式生成切割集。其他所需的輸入是組件故障率和維修特性。假定組件具有指數故障分佈。每個組件可能具有固定的修復時間，指數的修復分佈，或者是不可修復的。此外，KITT2允許每個組件具有其自己獨特的時間階段，由此其故障和修復數據可能會隨階段而變化。

KITT代碼爲系統失效（頂層事件）計算以下五個方面的概率特徵，每一個部件，在用戶指定的任意時間點計算每一個最小切割集或者路徑集：

在時間t存在的失效概率（非有效率）
到時間t也沒有發生失效的概率（可靠性）
時間t失效發生的期望次數
每小時的發生率

除上述內容外，KITT代碼還通過定性和定量的重要性對事件進行單組分和雙組分切割。有關重要性度量的討論，請參見第十一章。

(b) SAMPLE，MOCARS等

當將概率分佈分配給組件故障率以解決數據可變性時，已編寫了一些代碼來計算所計算的系統結果的概率分佈（例如，不可用性）。這些代碼使用蒙特卡洛模擬，其中從輸入概率分佈中採樣組件故障率。然後，通過用戶提供的FORTRAN子例程中給出的系統功能，將故障率的樣本值組合起來，以確定樣本系統結果。在多次這些“試驗”之後，可以將不同的系統值製成表格，並可以表徵所得的經驗分佈。通過這種方法，可以評估不確定性或組件故障率變化對系統可用性的影響。

通常，用戶提供的系統不可用性函數可能是從定性分析代碼之一獲得的最小切割集方程。SAMPLE[38]是WASH-1400中使用的蒙特卡羅代碼。 SAMPLE允許爲組件故障率指定非正態分佈，對數非正態分佈或對數統一（log-uniform)分佈。輸出分佈以估計的經驗概率百分位數表示，從中可以輕鬆讀取估計的中位數，上限和下限。輸出還包括分佈的估計平均值和標準偏差以及系統密度函數的表格直方圖。樣本是用FORTRAN IV編寫的。

MOCARS [25]類似於SAMPLE的原理和操作，但是允許更多種類的採樣分佈，包括指數分佈，正態分佈，γ，β，對數，二項式，泊松分佈，威布爾分佈和經驗分佈。它允許將系統不可用功能指定爲FORTRAN語句或使用切割集。其他選項包括使用集成圖形系統（IGS）進行微縮膠片繪圖以及對輸出分佈執行Kolmogorov-Smirnov擬合優度測試以查看其是否類似於正態，對數正態或指數函數的功能。MOCARS是用FORTRAN編寫的，可在INEL CDC 76-1973操作系統上運行。

研究人員也已經編寫了SAMPLE[4]的其他擴展版本，但是它們都非常相似，因此在此不再討論。

© FRANTIC

FRANTIC(Formal Reliablity Analysis including Normal Testing, Inspection and Checking) 【41】代碼計算任意常規系統模型，例如故障樹或者事件樹的平均和時間相關的不可靠性，詳細考慮不同週期測試方案的影響。程序可用來評估系統的測試停機時間、維修時間、測試效能、不可用性，測試旁路功能，測試導致的失效，以及不同的測試交錯的不可用性。除了定期測試的組件之外，不可維修的和監控的組件，以及人工錯誤和常規原因貢獻也可以被建模。

在SAMPLE代碼中，系統模型以FORTRAN支路的形式輸入。對於每一個部件，失效率、測試和維修特性必須被提供。指數失效分佈被假設。其他輸入包括了計算的時間區間，打印和繪圖的選項。時間相關的系統不可用性函數的Calcomp繪圖將被描繪。

可以使用FRANTIC代碼[16]的蒙特卡羅版本，其中可以爲組件故障率輸入採樣分佈。 FRANTIC是用FORTRAN IV編寫的，用於IBM 360-370系列計算機。

4. 直接評估代碼（Direct Evaluation Code)

就像名稱裏描述的那樣，直接評估代碼只用一個單一步驟對代碼進行量化。因此，它們不將切割集作爲分析的必須步驟，而是要求對於從過程輸出的每一個部件進行概率輸入。這些代碼的輸出大體上以系統不可用性和失效概率的形式的點估計的形式給出。

第三節c和f描述的GO和WAM-BAM代碼，對允許的補充事件和一些依賴的模型有一定的優勢。GO還允許開關和時間延遲和建模所有的系統狀態，來替代單一失效事件。GO和WAM-BAM通過消除過程中在中間層次的低概率的路徑來降低存儲需求，並且同一時間保持跟蹤捨棄路徑概率的總量。不利條件一般是關於它無法生成切割集（很多直接評估代碼是有計算切割集的選項的，但是不是分析必須的），以及必須對於所有部件都要輸入概率，即使很多事件對於系統失效是無足輕重的。同樣，一個概率的變更會經常導致整個過程的重新運算。

(a)ARMM

由北美航空爲美國空軍開發並由Holmes和Narver修改並應用於核電站系統的ARMM（自動可靠性數學模型）代碼[26]是第一個直接評估代碼。 ARMM使用成功路徑方法對可靠性框圖進行建模。使用爲每個組件提供的故障密度函數確定組件的故障概率。程序能夠處理Weibull（時間依賴失效率）密度函數，依賴的組件，以及完全互斥的失效率。它用FORTRAN IV編寫，運行於IBM 360平臺。

(b)SAFTE

SAFTE（通過故障樹評估進行系統分析）代碼[13]，SAFTEl，SAFTE2和SAFTE3是蒙特卡羅模擬程序，使用類似於PREP的FATE選項的技術來生成故障樹中組件失效的隨機時間。但是，不同於計算切割集，SAFTE代碼直接生成系統失效的時間分佈。SAFTE1代碼如下邊敘述的一樣工作；SAFTE2代碼也包括從常規維修分佈中抽樣來獲取每個部件的維修時間。在這個版本，一個失效的部件或許會在系統失效前維修（成爲新的一樣），然後通過一個新的隨機失效時間和維修時間恢復工作。在SAFTE1和SAFTE2中，失效的隨機時間生成於指數型的失效分佈。

SAFTE3計算系統失效的概率，是基於穩定狀態維修，使用直接或權重採樣的技術。SAFTE代碼用FORTRAN IV運行於IBM 360計算機。

© GO

Go方法，開發於1960年中期的卡曼科技公司，不同於故障樹原理，其常規操作流程會被建模，而且所有可能的系統狀態都會被考慮。所使用的輸入模型比叫做GO圖型，它繼承了標準操作集合組成的原理圖或流程圖，這些圖形描述了系統部件的邏輯功能和內部連接。16個GO操作的其中一部分於故障樹的門非常像，但是除了邏輯功能之外，時間延遲和開關，以及互補事件邏輯和完全獨立狀態也能被建模。GO還提供了一個對樹的重複部分，採用“超級類型”進行建模的簡單的方法。除了指定操作員的類型及其互連之外，用戶還指定與每個組件的可能操作模式關聯的概率。此過程類似於爲故障樹中的組件提供故障概率；但是，在GO方法中，給出了除了簡單的成功和失敗以外的簡單事件的概率（比如，爲某些操作員提供了提前操作的概率或一系列時間點上的響應概率）。GO的輸出是各個輸出事件發生的概率或幾個輸出事件的性能的角度的聯合概率。輸出事件可以包含系統成功，各種失效的角度，例如荒謬或提前的操作，延遲或片面的操作，以及完全操作失效。部件維修的效果不能建模。

通過使用馬爾可夫鏈（事件樹）方法通過模型跟蹤信號（事件概率）以傳播值，一步一步地執行了數值評估。這意味着組件概率的變化，例如敏感性研究，即使系統結構保持不變，也需要一個完全的重新估計。因爲概率樹會輕易的變得非常大，所以Go會先依據一個選定的概率值對樹的分支進行修剪，並且去除不再需要的信號，同時持續跟蹤捨棄路徑的概率總量。Go同樣包括一個“故障查找器”選項，它能爲指定的輸出事件計算第四級別的切割集

因爲GO代碼的細節與多樣性，以及包含所有部件的必要性，Go的建模過程比故障樹更復雜一些。但是，需要看到GO的圖表和人們熟悉的系統原理圖更相似，其建模過程對於設計人員和工程師們會更容易學。如果分析人員想要使用故障樹模型來取代GO圖形，使用GO來估計故障樹也是可行的。在這種情況下，將僅使用類似於故障樹門的GO運算符的子集，並且輸出將是頂級事件失敗概率的點估計

GO使用FORTRAN語言，運行於CDC 7600.

(d) NOTED

NOTED，是由United Kingdom Atomic Energy Authority在1971年推出，在概念上和GO很相似。但是，與在一系列離散時間點分析系統不同，NOTED製作出一個累積失效概率的圖形，在系統的任意幾個點上作爲一個時間的連續性的功能。相似的，輸入部件的行爲通過連續性的失效分佈進行描述，包括指數對數正態，正態，威布爾以及包括修復時間在內的形式。

(e) PATREC

PATREC是一個採用列表過程技術來解決故障樹估計問題的計算機代碼。PATREC使用以PL / 1編程語言實現的模式識別算法直接進行故障樹估計，而不是生成切割集。一組子樹模式及其對應的概率方程式存儲在計算機代碼的庫中。然後在故障樹中搜索庫中模式的出現。每一個識別的模式被一個超部件集合存儲在庫中的相等的出現概率進行替換。因此整棵樹就會完全縮減成一片葉子，它反映了整個系統的失效概率。

PATREC能估計包含一個事件和其補充事件的故障樹；n入k出門的直接輸入也是支持的。如果需要，它能通過一個和MOCUS類似的算法生成切割集，但是他們不能用於故障樹的估計。PATREC最侷限的地方應該是處理重複的事件了。模式識別方案僅在沒有事件被複制時才產生正確的概率。因此，PATREC將具有r個不同複製事件的單個故障樹替換爲 $2^r$ 個沒有複製事件的故障樹。即使近似值可以丟棄一些 $2^r$ 故障樹，PATREC也無法有效地評估具有大約20個以上重複事件的故障樹。

PATREC能執行時間相關係統不可用性分析，其中每一個事件都可以有一個失效分佈，它可以是指數型的，威布爾型的，正態的，對數正態的。對於指數型失效的情況，部件可以選擇性的被假設爲一個指數維修分佈的可維修性。此外，用戶能包含一個恆定的“按需失效”（比如，在開始時失效）概率，它與時間不相關。

PATREC-MC【20】是PATREC的蒙特卡洛版本，它能用於評估部件可靠性參數中的不確定性造成的影響。該代碼的功能和SAMPLE（第二節中介紹的）非常類似，但是在系統功能的表示方法不太一樣。在PATREC-MC，首先會有一個計算，利用列出先前描述的過程方法來定義故障樹中的所有模式。模式將存儲在內存中，以便他們能在蒙特卡洛實驗中被反覆估計。注意，爲隨後的重新估計所進行的模式的存儲意味着PATREC-MC並不是直接估計，因爲存儲的模式實際上是中間過程定性分析的結果，它獨立於部件的概率。具體區別我們將在後邊PL-MOD的章節中繼續分析（本章第四節）。

(f)WAM_BAM

WAM-BAM是由Science Applications開發的代碼。起始於1975年的EPRI，WAM-BAM包實際上包含了四個代碼：WAM,WAMTAP, BAM, WAM-CUT。WAM和WAMTAP是針對估計代碼BAM(boolean arithmetic model)的輸入預處理。WAM預處理，近似於PREP，旨在簡化輸入準備過程。它從故障樹的輸入描述和事件概率中爲BAM生成數字輸入。在用戶的選項中，BAM的輸入可以保存並在後邊通過WAMTAP進行修改。WAMTAP允許單一的部件和成組的部件爲了敏感度研究或者爲了包含常見原因作用而作出修改。WAM-CUT能用於計算最小切割集，任意的門的概率的方差或者平均值。它還能生成蒙特卡洛代碼的輸入，SPASM，它能對門概率的分佈進行計算。

估計代碼BAM，使用一個來自於GO方法和故障樹分析的組合概念。它使用了GO的計算方案，但是卻使用了像故障樹的門那樣的建模操作。作爲允許的門，它包括兩個事件的八個可能的邏輯組合以及他們的補充。在BAM，頂層事件的概率通生成一個真值表來計算，每行代表與所有其他P項不相交的乘積項（P項）事件。就GO方法論而言，P項等效於在GO事件樹內的路徑。BAM的輸出是頂層事件的點概率。就像前邊提到的，WAMTP能被用來修正BAM敏感性的輸入。WAM-BAM由FORTRAN語言編寫，運行於CDC 660平臺。

12.5 PL-MOD:雙目的代碼

PL-MOD【28】在本節會被分開敘述，因爲它能對故障樹進行定性和定量的分析，它既不依賴於標準切割集生成也不依賴於直接估計技術。類似於PATREC-MC代碼，它執行並不依賴標準切割集生成技術的定性估計，二是重複使用定量估計。

PL-MOD代碼通過從一個部件和門的框圖的描述來直接將故障樹模塊化。根據可靠性網絡圖的定義，一個模塊是一組部件，這些部件具備超部件的行爲特徵（比如，完全滿足知道超部件的狀態，而不是組成它的部件的狀態，來判斷系統的狀態）。根據故障樹圖，如果沒有包含在門域（例如門下所有的分支）中的基本事件出現在故障樹的其他地方，一箇中間門就是一個頂層事件樹所對應的模塊。簡單來說，模塊化意味着所有獨立的子樹（例如子系統或模塊）都被妥善定義，並且最小切割集都根據這些模塊被遞歸的定義。或者，換一種說法，一個模塊化的樹是一個與原始樹等效但是基於某些理由最大化的將樹分解成獨立的子樹。

模塊化的概念和優點已爲人所知[2]，Chatterjee[6]在1975年描述了一種在給定故障樹的切割集的情況下找到最佳模塊化分解的算法。使用PL-MOD模塊化的過程是獨特的，它並不應用切割集，但卻使用PL/1編程語言的列表過程特點從而直接應用故障樹圖形的描述。使用PL-MOD的模塊化過程更復雜，我們在這裏並不繼續討論（參考28會有更詳細的敘述）。

PL-MOD的特點是能處理補充事件，對稱門（n入k出）的直接輸入，自由字段的輸入，動態存儲分配。PL-MOD的輸出包含頂層事件和樹的指定中間門的標準的或模塊化的最小切割集。

PL-MOD的不足是它是機器相關的（PL/1在很多計算機上無法運行）並且很多科研從業人員並不熟悉。

PL-MOD的量化能力包含頂層事件和所有其他模塊的出現概率和權重的計算。PL-MOD同樣還有針對計算不確定度的蒙特卡洛選項，以及時間相關不可用性的估計，它能處理不可維修的，可維修的，以及週期性的測試部件。

12.6 共因失效分析代碼

共因失效分析在系統可靠性和安全性研究中越來越重要，因爲人們逐漸認識到共因失效能經常主導隨機硬件失效。共因失效分析嘗試定義系統失效模式（例如最小切割集），它可能由一個單一的，更基本的共因觸發。需要定義的最小切割集是那些有兩個或更多事件的，所有這些都容易受到單一的共因失效機制的影響。//TODO:這裏的Common cause到底是共因還是普通原因？

(a) COMCAN

COMCAN是由INEL開發的，是第一個執行共因失效分析的程序。該程序的輸入有兩部分：1）需要分析的故障樹的最小切割集；2）每一個基礎事件的共因薄弱性（//TODO：文中有好多susceptibility，是翻譯成薄弱性還是敏感性比較好？）數據。程序的輸出是一個最小切割集列表，它是供候選的共因。

可以通過兩個標準中的任何一個將最小切割集標識爲共同原因候選者。第一個標準要求所有的切割集的事件應有可能被相同的原因或條件影響。第二個校準要求所有切割集的事件共享一個共因或條件對應的易感性，此外，關於共有原因的易感性方面，最小切割集中的基本事件所暗指的所有部件必須共享一個共有物理位置。一些標準共有原因包含：衝擊、震動、牽引力（stress）、砂礫、同向力（pressure)、溫度。最小切割集和共因易感性數據組成了需要的輸入。可選的輸入是部件的結構，常規原因的位置區域定義，基本事件所隱含的每個組件的位置，以及每個常見原因對組件的易感性。提供的輸入越多，對共因候選的搜索就越精細。輸出的選項包含僅打印 $ranks \geq N$ 的共因候選，和包含作爲共因候選標準之一的所有相似類型部件。

COMCAN用FORTRAN IV編寫，運行於IBM 360計算機。

(b)BACKFIRE

BACKFIRE代碼[5]於1977年5月發佈，是COMCAN的分支。必需和可選輸入幾乎相同，除了BACKFIRE允許爲一個組件指定多個位置。這對於可能穿過區域屏障的管道和佈線很有用。像COMCAN一樣，BACKFIRE是用FORTRAN IV編寫的，用於IBM 360計算機。

© SETS

在前邊章節中介紹的SETS代碼也可以用於共因分析[47]。通過輸入每個基本事件的一般原因易感性，以類似於COMCAN的方式進行分析。變量轉換將共因易感性合併到故障樹的頂部或任何中間門的布爾方程中，並且一些簡單的操作允許用戶顯示作爲共因候選的切割集。