一文讀懂進化樹(圖文詳解)

一、什麼是進化樹

系統發育進化樹 (Phylogenetic tree): 一般也叫系統進化樹,進化樹。它可以利用樹狀分支圖形來表示各物種或基因間的親緣關係。

建進化樹的過程,用術語講:

分支系統發育分析 (Molecular phylogenetic analysis): 是用來研究物種或序列進化和系統分類的一種方法。一般研究對象是鹼基序列或氨基酸序列,通過數理統計算法來計算生物間進化關係。最後,根據計算結果,可視化爲系統進化樹。

二、進化樹的構成

我們模擬一個項目,使用人和鼠的各兩個基因做進化樹,結果如下:

mark

可以看到上面有一堆標註,下面來看看它們代表什麼意義:

1. 根 (Root)

所有分支的共同祖先叫做根

根據有無根可分爲:

有根樹:上面的圖就是有根樹,可以從樹中找到共同的祖先。

無根樹:顧名思義,沒有根,也就找不到共同的祖先。比如後邊會提到的 Straight Tree

2. 結點 (Node)

每個結點代表一個分類單元,物種上可以是屬,種羣等,基因上可以是基因家族,同源物等。

這裏需要注意,有的人會把 node 翻譯爲節點,但是節點與結點有着不一樣的含義:

**節點:**通常被認爲是一個實體,比如互聯網上的每臺計算機,蛋白互作網絡的每個蛋白質。

**結點:**只是一個交叉點,指交匯點,並不代表一個實體或事物

所以,在進化樹中 node 最好翻譯爲結點。在計算機數據結構鏈表也需要注意二者區別。

但是,也有另外一種解釋:

這種解釋將 node 分爲 外部節點與內部節點:

外部節點又叫葉節點,也就是最外層的人基因1,人基因2等,代表參與分析的序列樣本

內部節點,也就是我們使用藍色標註的位置,代表假定祖先。

3. 進化支 (Branch)

也叫分支,指兩種及以上的生物或序列組成的進化關係。

可以利用這個來看同源。比如,上圖中人基因1與人基因2可能是旁系同源基因,而人基因1與鼠基因1可能是直系同源基因。

4. 外羣

與分析序列相關的生物序列,但是具有較遠的親緣關係。

5. 進化分支長度

也叫遺傳變異度,進化距離。一般會標註在分支線上,代表進化支變化的程度,越短代表差異越小,進化距離越近。比如人基因1與人基因2的遺傳變異度爲 0.21+0.22=0.43。
遺傳變異度實際代表基因組序列中每個位點鹼基的替換頻率,計算方法也很簡單:變異度=變異鹼基數/總鹼基數(%)。我們常見的形式,通常以0-1的小數來表示,代表100個鹼基位點的變異度大小。

我們可以從水平方向上的分支及長度,看到進化譜系隨着時間的變化,進化分支長度越長代表着該分支對應的物種或基因的變化越大。比如,對應上圖,我們可以描述爲人基因1相對其他基因在進化時間上更早,而且在進化時間上鼠基因2最晚。

有意思的是,根據基因序列相似度與進化時間假說對這種進化距離進行轉換,就可以得到分子鐘。比如,用它分析病毒進化樹,甚至可以推斷出初代病毒產生的時間點。

6. 距離標尺

生物或序列間差異數值的單位長度,相當於進化樹的比例尺。

7. Bootstrap value

一般會標註在結點,用來評估該分支的可信度。

Bootstrap value 對於我們後續分析比較重要,尤其在進化樹評估中。

三、進化樹評估

1. Bootstrap檢驗

對於進化樹評估一般會使用 Bootstrap 進行檢驗。

Bootstrap檢驗,自舉法檢驗,也叫自展,自助法。其實就是放回式抽樣統計法的一種,通過對數據集多次重複取樣,構建多個進化樹,用來檢查給定樹的分枝可信度。

2. 重複取樣值

那麼重複取樣的次數會在建樹時設置,現在一般文章要求Bootstrap 取樣值 >1000。

3. Bootstrap value 閾值

雖然根據嚴格的統計學概念,自展值需要要大於95%才較爲可信。

然而在實際應用中,我們一般認爲結點的 Bootstrap value > 70,這個分支就是可靠的。特別是微生物等相似度比較大的分類中,一般大於50%就認爲可信(小於50%不會顯示)。

4. Bootstrap value 與分支

如果低 Bootstrap value 更靠近分支末端,代表相似度太高而很難區分

如果低 Bootstrap value 更靠近根,代表相似度太低

四、幾種進化樹圖

1.經典樹圖(Traditional)

Rectangle Tree

優點很明顯,就是可以清晰的展示出樣本間進化距離和進化分支。缺點就是展示出來效果不炫。
mark

有時候也可以這樣顯示,相對來說,更酷一點:

Straight Tree
mark

再酷一點:

Curved Tree

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-WLdqvhP6-1589796648372)(http://baimoc.ziptop.top/blog/20200517/XG77wrqmX6W8.png)]

2.圈圖(Circle Tree)

本質上是將樹圖極座標化。這種圖,可以說是進化樹最炫的一種展示,而且在分析樣本數量大的時候,效果更佳。但是,致命缺點是可讀性不好,比如很難橫向對比進化距離。因此,適用於展示差異較大的物種或基因樣本。
mark

3.輻射樹(Radiation Tree)

這種圖用於根不確定的進化樹構建。它可以將相似度高的樣本序列聚集在一起。因此,更適合做親緣關係近的物種或差異小的基因樣本。
mark

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章