生物信息數據分析

VENN

venn 圖可用於統計多個樣品中所共有和獨有的OTU 數目,可以比較直觀的表現環境樣品的OTU 數目組成相似性及重疊情況。
單張分析圖,樣本分組至少兩個,最多 5 個。
例圖:使用97%相似度的OTU,R 語言工具統計和作圖。
參考文獻:Fouts DE, Szpakowski S, Purushe J, Torralba M, Waterman RC, et al. (2012) Next GenerationSequencing to Define Prokaryotic and Fungal Diversity in the Bovine Rumen. PLoS ONE 7(11): e48289. doi:10.1371/journal.pone.0048289.
在這裏插入圖片描述
上圖中A-E樣品中,所有樣品都含有的OTUs的數量爲987,各自獨有的數量爲2,5,27,1,2,共有的比例較大,則證明五個樣品的相似度較高。

rank abundance

在16S rRNA擴增子分析中,rank abundance可以從OTU的層面總體的反映出物種的分佈情況(丰度和均勻度)。
曲線中,曲線在橫軸上的跨度越長,表明樣品的物種含量越豐富;縱軸上看曲線越平坦,表示樣品的物種組成越均勻。

  • 橫座標:物種的丰度,OTU 等級,“500”代表樣本中按照丰度排列第500 位的OTU;或者可以理解爲OTU的數量,樣本曲線的延伸終點的橫座標位置爲該樣本的OTU總數量。
  • 縱座標:物種的均勻度,該等級OTU 中序列數的相對百分含量,即屬於該OTU 的序列數除以總序列數,縱座標軸上數字,例如“100”代表相對丰度爲100%,“10”代表相對丰度爲10%,依次類推。

relative abundance:就是該OTU所包含的序列數除以總的序列數,從上圖可以看出丰度最高的OTU在10%~100%。

在這裏插入圖片描述
如上圖中Group5中有15000個OTU,Group1中有10000個OTU,因此Group5的物種丰度大於Group1。

Rank abundance計算

  • 獲取每個樣本中OTU的丰度值,即每個OTU中有多少條序列。
  • 將每個樣本中OTU的丰度值按照從大到小順序進行排序,並計算總丰度
  • 計算獲取每個樣本OTU的相對丰度。

舉個栗子

  • 樣本1中有5個OTU,丰度分別爲5,4,3,3,5
  • 排序後爲5,5,4,3,3
  • 總丰度5 + 5 + 4 + 3 + 3 = 20
  • 計算相對丰度
    5 ÷ 20 = 0.25
    5 ÷ 20 = 0.25
    4 ÷ 20 = 0.2
    3 ÷ 20 = 0.15
    3 ÷ 20 = 0.15

多樣性指數

  1. alpha多樣性
  2. beta多樣性
  3. gamma多樣性

alpha多樣性指數

(樣本內多樣性)
用於測量羣落內生物種類數量以及生物種類間相對多度的一種測量。它反映了羣落內物種間通過競爭資源或利用同種生境而產生的共存結果。是相對樣本本身來說的,也就是說一個樣本就可以做alpha多樣性分析。

  1. 物種豐富度指數:樣品中所含物種的多少,反應一定空間範圍內生物的豐富程度。
    例如:Margalef豐富度指數、 Menhnick豐富度指數等。
  2. 物種均勻度指數:刻畫羣落中各個種的相對密度。
    例如:Pielou均勻度指數, Sheldon均勻度指數,Hill均勻度指數、Heip均勻度指數、 Alatalo均勻度指數等
  3. 物種多樣性指數:將物種多樣性和種的豐富度結合起來。
    例如:Shannon-Wienner多樣性指數, Simpson多樣性指數,Hill多樣性指數以及種間相遇概率(PIE)等

Chao1豐富度估計量(Chao1 richness estimator)

Chao多樣性是用chao1算法估計羣落中含OTU數目的指數,Chao1在生態學中常用來估計物種總數,由Chao(1984)最早提出。Chao1值越大代表物種總數越多。

香農多樣性指數(Shannon diversity index)

Shannon值越大,說明羣落多樣性越高。
在這裏插入圖片描述

辛普森多樣性指數(Simpson diversity index)

Simpson指數值越大,說明羣落多樣性越低。
==1辛普森多樣性指數 = 隨機取樣的兩個個體屬於不同種的概率=1-隨機取樣的兩個個體屬於同種的概率
在這裏插入圖片描述

beta多樣性指數

生態系之間的種多樣性,它包含分類單位的比較。即衡量羣落之間的差別。Beta多樣性不僅描述生境內生物種類的數量,同時也考慮到這些種類的相同性及其彼此之間的位置。用於不同樣品以及同一樣品不同條件下的比較。

  • Whittaker指數、Cody指數、 Wilson和 Shmida指數等

beta多樣性意義

  • 它可以指示生境被物種隔離的程度
  • β多樣性的測定值可以用來比較不同地段的生境多樣性
  • β多樣性與α多樣性一起構成了總體多樣性或一定地段的生物異質性

PCoA分析

PCoA分析 principal co- ordinates analysis)是一種研究數據相似性或差異性的可視化方法,通過一系列的特徵值和特徵向量進行排序後,選擇主要排在前幾位的特徵值,PCoA可以找到距離矩陣中最主要的座標結果是數據矩陣的一個旋轉,它沒有改變樣品點之間的相互位置關係,只是改變了座標系統。通過PCoA可以觀察個體或羣體間的差異。

PCA分析

PCA( Principal component analysis),叫做主成分分析,是一種研究數據相似性或差異性的可視化方法,通過一系列的特徵值和特徵向量進行排序後,選擇主要的前幾位特徵值,採取降維的思想,PCA可以找到距離矩陣中最主要的座標,結果是數據矩陣的一個旋轉,它沒有改變樣品點之間的相互位置關係,只是改變了座標系統。
其優點是簡單且無參數限制。通過分析不同樣品OTU(97%相似性)組成可以反映樣品間的差異和距離,PCA 運用方差分解,將多組數據的差異反映在二維座標圖上,座標軸取能夠最大反映方差值的兩個特徵值。**如樣品組成越相似,反映在PCA 圖中的距離越近。**不同環境間的樣品可能表現出分散和聚集的分佈情況,PCA 結果中對樣品差異性解釋度最高的兩個或三個成分可以用於對假設因素進行驗證。
例圖:使用97%相似度的OTU,PC-ORD或是CANOCO作圖。
參考文獻:Yu Wang, Hua-Fang Sheng, et al. Comparison of the Levels of Bacterial Diversity in Freshwater, Intertidal Wetland, and Marine Sediments by Using Millions of Illumina Tags. Appl. Environ. Microbiol. 2012, 78(23):8264. DOI: 10.1128/AEM.01821-12
在這裏插入圖片描述

  • 十字交叉線:作爲 0 點基線存在,起到輔助分析的作用,本身沒有意義
  • 每個點代表了一個樣本;顏色則代表不同的樣品分組
  • 兩點之間在橫、縱座標上的距離,代表了樣品受主成分(PC1 或 PC2)影響下的相似性距離
  • 樣本數量越多,該分析意義越大;反之樣本數量過少,會產生個體差異,導致 PCA 分析成圖後形成較大距離的分開,建議多組樣品時,每組不少於 5 個,不分組時樣品不少於 10 個

NMDS分析

非度量多維尺度法是一種將多維空間的研究對象(樣本或變量)簡化到低維空間進行定位、分析和歸類,同時又保留對象間原始關係的數據分析方法。適用於無法獲得研究對象間精確的相似性或相異性數據,僅能得到他們之間等級關係數據的情形。其基本特徵是將對象間的相似性或相異性數據看成點間距離的單調函數,在保持原始數據次序關係的基礎上,用新的相同次序的數據列替換原始數據進行度量型多維尺度分析。換句話說,當資料不適合直接進行變量型多維尺度分析時,對其進行變量變換,再採用變量型多維尺度分析,對原始資料而言,就稱之爲非度量型多維尺度分析。其特點是根據樣品中包含的物種信息,以點的形式反映在多維空間上,而對不同樣品間的差異程度,則是通過點與點間的距離體現的,最終獲得樣品的空間定位點圖。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章