一、什麼是進化樹
系統發育進化樹 (Phylogenetic tree): 一般也叫系統進化樹,進化樹。它可以利用樹狀分支圖形來表示各物種或基因間的親緣關係。
建進化樹的過程,用術語講:
分支系統發育分析 (Molecular phylogenetic analysis): 是用來研究物種或序列進化和系統分類的一種方法。一般研究對象是鹼基序列或氨基酸序列,通過數理統計算法來計算生物間進化關係。最後,根據計算結果,可視化爲系統進化樹。
二、進化樹的構成
我們模擬一個項目,使用人和鼠的各兩個基因做進化樹,結果如下:
可以看到上面有一堆標註,下面來看看它們代表什麼意義:
1. 根 (Root)
所有分支的共同祖先叫做根
根據有無根可分爲:
有根樹:上面的圖就是有根樹,可以從樹中找到共同的祖先。
無根樹:顧名思義,沒有根,也就找不到共同的祖先。比如後邊會提到的 Straight Tree
2. 結點 (Node)
每個結點代表一個分類單元,物種上可以是屬,種羣等,基因上可以是基因家族,同源物等。
這裏需要注意,有的人會把 node 翻譯爲節點,但是節點與結點有着不一樣的含義:
**節點:**通常被認爲是一個實體,比如互聯網上的每臺計算機,蛋白互作網絡的每個蛋白質。
**結點:**只是一個交叉點,指交匯點,並不代表一個實體或事物
所以,在進化樹中 node 最好翻譯爲結點。在計算機數據結構鏈表也需要注意二者區別。
但是,也有另外一種解釋:
這種解釋將 node 分爲 外部節點與內部節點:
外部節點又叫葉節點,也就是最外層的人基因1,人基因2等,代表參與分析的序列樣本
內部節點,也就是我們使用藍色標註的位置,代表假定祖先。
3. 進化支 (Branch)
也叫分支,指兩種及以上的生物或序列組成的進化關係。
可以利用這個來看同源。比如,上圖中人基因1與人基因2可能是旁系同源基因,而人基因1與鼠基因1可能是直系同源基因。
4. 外羣
與分析序列相關的生物序列,但是具有較遠的親緣關係。
5. 進化分支長度
也叫遺傳變異度,進化距離。一般會標註在分支線上,代表進化支變化的程度,越短代表差異越小,進化距離越近。比如人基因1與人基因2的遺傳變異度爲 0.21+0.22=0.43。
遺傳變異度實際代表基因組序列中每個位點鹼基的替換頻率,計算方法也很簡單:變異度=變異鹼基數/總鹼基數(%)。我們常見的形式,通常以0-1的小數來表示,代表100個鹼基位點的變異度大小。
我們可以從水平方向上的分支及長度,看到進化譜系隨着時間的變化,進化分支長度越長代表着該分支對應的物種或基因的變化越大。比如,對應上圖,我們可以描述爲人基因1相對其他基因在進化時間上更早,而且在進化時間上鼠基因2最晚。
有意思的是,根據基因序列相似度與進化時間假說對這種進化距離進行轉換,就可以得到分子鐘。比如,用它分析病毒進化樹,甚至可以推斷出初代病毒產生的時間點。
6. 距離標尺
生物或序列間差異數值的單位長度,相當於進化樹的比例尺。
7. Bootstrap value
一般會標註在結點,用來評估該分支的可信度。
Bootstrap value 對於我們後續分析比較重要,尤其在進化樹評估中。
三、進化樹評估
1. Bootstrap檢驗
對於進化樹評估一般會使用 Bootstrap 進行檢驗。
Bootstrap檢驗,自舉法檢驗,也叫自展,自助法。其實就是放回式抽樣統計法的一種,通過對數據集多次重複取樣,構建多個進化樹,用來檢查給定樹的分枝可信度。
2. 重複取樣值
那麼重複取樣的次數會在建樹時設置,現在一般文章要求Bootstrap 取樣值 >1000。
3. Bootstrap value 閾值
雖然根據嚴格的統計學概念,自展值需要要大於95%才較爲可信。
然而在實際應用中,我們一般認爲結點的 Bootstrap value > 70,這個分支就是可靠的。特別是微生物等相似度比較大的分類中,一般大於50%就認爲可信(小於50%不會顯示)。
4. Bootstrap value 與分支
如果低 Bootstrap value 更靠近分支末端,代表相似度太高而很難區分
如果低 Bootstrap value 更靠近根,代表相似度太低
四、幾種進化樹圖
1.經典樹圖(Traditional)
Rectangle Tree
優點很明顯,就是可以清晰的展示出樣本間進化距離和進化分支。缺點就是展示出來效果不炫。
有時候也可以這樣顯示,相對來說,更酷一點:
Straight Tree
再酷一點:
Curved Tree
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-WLdqvhP6-1589796648372)(http://baimoc.ziptop.top/blog/20200517/XG77wrqmX6W8.png)]
2.圈圖(Circle Tree)
本質上是將樹圖極座標化。這種圖,可以說是進化樹最炫的一種展示,而且在分析樣本數量大的時候,效果更佳。但是,致命缺點是可讀性不好,比如很難橫向對比進化距離。因此,適用於展示差異較大的物種或基因樣本。
3.輻射樹(Radiation Tree)
這種圖用於根不確定的進化樹構建。它可以將相似度高的樣本序列聚集在一起。因此,更適合做親緣關係近的物種或差異小的基因樣本。