宏轉錄組學習筆記一

前面提到,已經有兩家公司通過宏轉錄組(Metatranscriptomics)測序檢測腸道微生物,面向消費者提供檢測服務。對宏轉錄組充滿了好奇,有這樣的比方說,宏基因組可以告訴我們這個微生物羣落可能有什麼樣的功能(潛能),宏轉錄組就是告訴我們羣落正在做什麼,相比宏基因組的眉毛鬍子一把抓,宏轉錄組是更針對當下的結果。由於測序的目標序列少了很多,結果不是變態大,對計算機的配置要求也相對降低。苦於想學宏基因組暫時沒有服務器的我,就退而求其次試試宏轉錄組了,相信不會讓我失望。之前學習過單轉錄組數據的分析,一般的筆記本(雙核,8g ram)扛了下來。鑑於中文網絡上能找到的宏轉錄組教程基本沒有,只在Github上搜索到兩個,選其中一個學習下。

1.整體過程概覽

整理了一個流程圖放在這裏,和普通轉錄組的區別在於多了個物種註釋的過程。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-ykUpVo3o-1584769876763)(https://jiawen.zd200572.com/wp-content/uploads/2020/03/%E8%B7%A8%E8%81%8C%E8%83%BD%E6%B5%81%E7%A8%8B%E5%9B%BE%EF%BC%88%E6%B0%B4%E5%B9%B3%EF%BC%89.png)]

2.軟件環境準備

軟件安裝使用conda進行,需要幾個G的空間,由於電腦配置有限,教程可能止步於某個對配置要求特別高的地方,後面如果運算時間不長,下載數據量不大,內存和核心數要求不太高,成本可以接受的話可以考慮使用騰訊雲、vultr,aws等雲服務完成。

#首先安裝conda, 添加清華源加速,教程有很多,這裏省略
#建立一個新的工作環境
conda create -n tara
#激活工作環境
source activate tara
#安裝所需軟件
conda install fastqc multiqc trimmomatic khmer \ 
busco megahit sourmash salmon r dammit cd-hit -y
#可選,如果後面要把環境打包,可以導出一個環境的軟件安裝列表,如果哪天可以整體打包文件就好了
#conda env export -n tara -f $PROJECT/tara_conda_environment.yaml
#安裝conda中沒有的其他軟件
cd <location-to-put-transrate>
wget https://bintray.com/artifact/download/blahah/generic/transrate-1.0.3-linux-x86_64.tar.gz
tar zxvf transrate-1.0.3-linux-x86_64.tar.gz
#添加環境變量
echo 'export PATH=/LUSTRE/apps/workshop/transrate-1.0.3-linux-x86_64:$PATH' >> ~/.bashrc
source ~/.bashrc
#安裝 hmmer
wget http://eddylab.org/software/hmmer/hmmer.tar.gz
tar zxvf hmmer.tar.gz

3.數據和數據庫準備

數據來自塔拉海洋探險(2009-2013)採樣對比世界海洋生態系統,利用現代測序和最先進的成像技術收集環境數據和浮游生物,從病毒到後生動物,用於以後的分析。它對20個生物地理省份中的210個生態系統進行了調查,收集了35,000多個海水和浮游生物樣本。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-hM2onCSm-1584769876770)(https://ngs-docs.github.io/2018-cicese-metatranscriptomics/files/TARAOCEANS-CARTE-1024x462.jpg)]

我們選擇分析的數據是《全球海洋真核基因圖集》的一部分(Carradec et al.2018)。本文使用跨轉錄組學的方法對TARA海洋數據進行了研究,從浮游性真核生物中生成了一個全球海洋蔘考基因目錄,並探討了它們在生物地理學和環境條件方面的表達方式。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-xpJqdXiK-1584769876772)(https://ngs-docs.github.io/2018-cicese-metatranscriptomics/files/tara-station-map.jpg)]

在本次研討會上,我們選擇了東太平洋的TARA 135、136和137站,您可以在下面的地圖上看到它們。我們分析了大小爲5-20µm的mRNAseq樣品(選擇了poly-A,因此可能大部分包含真核序列)中的數據,因爲該部分在我們選擇的TARA工作站上具有良好的重複性。對於大多數教程,我們使用這些數據的一小部分,以使程序運行時在研討會中可行。您可以通過開放式科學資源找到完整的數據,以發現和分析塔拉海洋數據(Pesant等,2015)。將向您展示如何從您的數據中獲得與上述TARA論文相同的答案!

主要是教程中的樣本測序數據,以及軟件的數據庫,文件較大,對於我們的網絡,下載可能費時較長,可以使用多線程下載工具如axel、aria2等下載,加速明顯。

#建立工作目錄和數據目錄
mkdir -p work/data
#轉到工作目錄
cd work/data
#wget下載測序數據, -c可以斷點續傳,如果支持的話,多線程工具下載耗時1小時左右
wget -c https://osf.io/76qm3/download -O tara135_1m.zip --no-check-certificate
wget -c https://osf.io/y5dfh/download -O tara136-137_1m.zip --no-check-certificate
#解壓數據,並讓數據不容易誤刪除
unzip tara135_1m.zip
unzip tara136-137_1m.zip
chmod u-w *fq.gz
#爲了簡單,定義一個PROJECT變量
 export PROJECT=~/work
 #查看文件
 ls $PROJECT/data/
TARA_135_DCM_5-20_rep1_1m_1.fq.gz       TARA_136_SRF_5-20_rep1_1m_2.fq.gz
TARA_135_DCM_5-20_rep1_1m_2.fq.gz       TARA_136_SRF_5-20_rep2_1m_1.fq.gz
TARA_135_DCM_5-20_rep2_1m_1.fq.gz       TARA_136_SRF_5-20_rep2_1m_2.fq.gz
TARA_135_DCM_5-20_rep2_1m_2.fq.gz       TARA_137_DCM_5-20_rep1_1m_1.fq.gz
TARA_135_SRF_5-20_rep1_1m_1.fq.gz       TARA_137_DCM_5-20_rep1_1m_2.fq.gz
TARA_135_SRF_5-20_rep1_1m_2.fq.gz       TARA_137_DCM_5-20_rep2_1m_1.fq.gz
TARA_135_SRF_5-20_rep2_1m_1.fq.gz       TARA_137_DCM_5-20_rep2_1m_2.fq.gz
TARA_135_SRF_5-20_rep2_1m_2.fq.gz       tara135_1m.zip
TARA_136_SRF_5-20_rep1_1m_1.fq.gz       tara136-137_1m.zip
#下載所需數據庫文件,從名字可以看出是來自genbank的rna數據,還好數據不怎麼大,一兩G,三十分鐘左右
wget -O genbank-rna-vertebrate_other-k31.tar.gz https://osf.io/qgyax/download
wget -O genbank-rna-vertebrate_mammalian-k31.tar.gz https://osf.io/6c9uy/download
wget -O genbank-rna-invertebrate-k31.tar.gz https://osf.io/7v8ck/download
wget -O genbank-rna-fungi-k31.tar.gz https://osf.io/g6mcr/download
wget -O genbank-rna-plant-k31.tar.gz https://osf.io/kctus/download
wget -O genbank-rna-protozoa-k31.tar.gz https://osf.io/fnu2q/download
wget -O mmetsp-k31-named.tar.gz https://osf.io/cdvqn/download
#使用一個for循環解壓數據
for infile in *.tar.gz;do tar xf ${infile};done
#dammit數據庫準備
dammit databases --install --busco-group metazoa  --quick

這樣準備工作就基本結束了,可以愉快地進行學習了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章