宏轉錄組學研討會

這項工作已獲得知識共享署名-相同方式共享4.0國際協議的許可。這意味着您可以複製,共享和修改作品,只要結果以相同的許可證分發即可。
本教程由Mobolaji Adeolu([email protected]),John Parkinson([email protected])和Xuejian Xiong([email protected])製作。

注意,這個教程的軟件運行環境爲linux,沒有相關環境需要使用docker或者虛擬機,而且,經過測試,python版本要求爲2.7, biopython=1.67,在不停報錯的教訓中得到的結論。

總覽

本教程將帶您完成處理元轉錄組數據的流程。實驗室開發的reads包括以下各個步驟:

  • 除去在文庫製備和測序步驟中添加的銜接子序列,並修剪低質量的鹼基和測序讀數。
  • 刪除重複的reads以減少以下步驟的處理時間。
  • 除去載體污染(來自克隆載體,刺突和引物的讀數)。
  • 除去宿主讀物(如果要研究其中存在宿主的微生物組)。
  • 儘管使用了rRNA去除試劑盒,但仍要刪除通常主導轉錄組數據集的大量rRNA序列。
  • 將重複的reads(在步驟2中刪除)添加回數據集,以提高程序集的質量。
  • 將reads分類到已知的分類組,並可視化數據集的分類組成。
  • 將讀段組裝到重疊羣中以提高註釋質量。
  • 註釋reads已知基因。
  • 將已鑑定的基因映射到swiss-prot數據庫中以鑑定酶功能
  • 生成與每個基因相關的標準化表達值。
  • 使用KEGG代謝途徑作爲Cytoscape的支架,可視化結果。
    整個元轉錄組學流程包括現有的生物信息學工具和一系列處理文件格式轉換和輸出解析的Python腳本。我們將通過以下步驟來說明流程的複雜性以及基礎工具和腳本。

一直在開發新的,更快和/或更準確的工具,值得牢記的是,隨着這些流程被社區採納爲標準,任何流程都需要靈活地整合這些工具。例如,在過去的兩年中,我們的實驗室已經從cross_match過渡到Trimmomatic,從BLAST過渡到DIAMOND。注意:本研討會旨在與DIAMOND v0.826一起使用。較新版本的DIAMOND將與我們在此練習中製作的預編譯數據庫文件不兼容

爲了說明該過程,我們將使用從小鼠結腸內容產生的序列reads。這些是150 bp單端reads。也可以使用成對末端的reads,並且通常是首選的,因爲當reads對中有足夠的重疊以提高有效平均reads長度時,它們可以提高註釋質量。使用成對末端數據需要一個額外的數據處理步驟(合併重疊的reads),從而在數據處理過程中生成更多文件(用於合併/單reads,正向reads和反向reads的文件),但是成對末端reads的結構數據類似於此處描述的reads,並且可以輕鬆進行調整。

本教程將帶您逐步處理100000個reads的一部分,而不是使用整個2500萬個reads的整個過程(在桌面上可能要花費幾天的時間)。

開場

工作目錄

#創建一個新目錄,該目錄將存儲在本實驗中創建的所有文件。

mkdir -p ~/metatranscriptomics
cd ~/metatranscriptomics
Python腳本

我們已經編寫了許多腳本來從您將要使用的工具中提取和分析數據。下載用於元轉錄組學研討會的軟件包,並解壓縮我們的python腳本。

#原文采用wget,這裏爲了加速,採用多線程的axel
axel https://github.com/ParkinsonLab/2017-Microbiome-Workshop/releases/download/Extra/precomputed_files.tar.gz
wget https://jiawen.zd200572.com/hla/precomputed_files.tar.gz --no-check-certificate
wget https://github.com/ParkinsonLab/Metatranscriptome-Workshop/archive/EC.zip --no-check-certificate
unzip EC.zip
tar -zxvf precomputed_files.tar.gz *.py  --wildcards 

輸入文件

我們的數據集包含從小鼠結腸內容物產生的150 bp單端Illumina讀數。要檢查其內容:

tar -xvf precomputed_files.tar.gz mouse1.fastq
less mouse1.fastq

注意事項:

輸入q以退出less。
使用FastQC檢查reads質量

FastQC報告在HTML文件中生成mouse1_fastqc.html。您還將找到一個zip文件,其中包含用於生成報告的數據文件。

source ~/Miniconda/bin/activate
conda create -n metatranscripts python=2.7
conda activate metatranscripts
conda install -y bwa SPAdes fastqc biopython=1.67 diamond=0.826 blat blast samtools bwa
fastqc mouse1.fastq -t 4 #只有一個文件,所以4線程是可選的 

FastQC報告在HTML文件中生成mouse1_fastqc.html。您還將找到一個zip文件,其中包含用於生成報告的數據文件。

要打開HTML報告文件,請使用以下命令, 然後您用瀏覽器可以瀏覽mouse1_fastqc.html並查找以下信息:

基本統計信息:小鼠RNA序列數據的基本信息,例如reads總數,reads長度,GC含量。
每鹼基序列質量:每個位置上所有鹼基的質量值範圍的概述。
每鹼基序列含量:顯示跨序列長度的核苷酸偏差的圖。
適配器內容:提供有關序列樣品中適配器污染程度的信息。

處理reads

步驟1.移除適配器序列並修剪低質量序列。

Trimmomatic可以快速識別和修剪適配器序列,以及識別和刪除低質量序列數據

注意事項:
‘’’
Automatically using 4 threads
Using Long Clipping Sequence: ‘AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGTA’
Using Long Clipping Sequence: ‘AGATCGGAAGAGCACACGTCTGAACTCCAGTCAC’
ILLUMINACLIP: Using 0 prefix pairs, 2 forward/reverse sequences, 0 forward only sequences, 0 reverse only sequences
Quality encoding detected as phred33
Input Reads: 100000 Surviving: 94415 (94.42%) Dropped: 5585 (5.58%)
TrimmomaticSE: Completed successfully
‘’’
ln -s /usr/local/prg/Trimmomatic-0.36/adapters/TruSeq3-SE.fa Adapters用於創建指向Trimmomatic提供的單端適配器序列文件的符號鏈接,該文件適用於HiSeq和MiSeq機器生成的序列。但是,如果可能,應使用您自己的測序項目中的已知適配器文件替換此文件。
命令行參數是:
SE:輸入數據是單端reads。
ILLUMINACLIP:Adapters:2:30:10:卸下適配器。
LEADING:3:如果reads的質量得分低於3,則在reads開始時將其作爲基礎。
TRAILING:3:如果它們的質量得分低於3,則在reads結束時修剪基數。
SLIDINGWINDOW:4:15:使用大小爲4的窗口進行掃描,以reads局部質量低於15的讀數,如果發現則進行修剪。
MINLEN:50:刪除長度小於50的序列。
問題1:刪除了多少個低質量序列?

ln -s ~/Miniconda/envs/tera/share/trimmomatic-*/adapters/TruSeq3-SE.fa Adapters
#ln -s /usr/local/prg/Trimmomatic-0.36/adapters/TruSeq3-SE.fa Adapters
Trimmomatic SE mouse1.fastq mouse1_trim.fastq ILLUMINACLIP:Adapters:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:50
#運行過程的輸出
Automatically using 4 threads
Using Long Clipping Sequence: 'AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGTA'
Using Long Clipping Sequence: 'AGATCGGAAGAGCACACGTCTGAACTCCAGTCAC'
ILLUMINACLIP: Using 0 prefix pairs, 2 forward/reverse sequences, 0 forward only sequences, 0 reverse only sequences
Quality encoding detected as phred33
Input Reads: 100000 Surviving: 94415 (94.42%) Dropped: 5585 (5.58%)
TrimmomaticSE: Completed successfully

ln -s /usr/local/prg/Trimmomatic-0.36/adapters/TruSeq3-SE.fa Adapters用於創建指向Trimmomatic提供的單端適配器序列文件的符號鏈接,該文件適用於HiSeq和MiSeq機器生成的序列。但是,如果可能,應使用您自己的測序項目中的已知適配器文件替換此文件。
命令行參數是:
SE:輸入數據是單端reads。
ILLUMINACLIP:Adapters:2:30:10:卸下適配器。
LEADING:3:如果reads的質量得分低於3,則在reads開始時將其作爲基礎。
TRAILING:3:如果它們的質量得分低於3,則在reads結束時修剪基數。
SLIDINGWINDOW:4:15:使用大小爲4的窗口進行掃描,以reads局部質量低於15的讀數,如果發現則進行修剪。
MINLEN:50:刪除長度小於50的序列。
問題1:刪除了多少個低質量序列?

使用FastQC檢查reads質量:fastqc mouse1_trim.fastq -t 4
與上一份報告進行比較,以查看以下各節中的更改:

基本統計
每鹼基序列質量
可選:配對讀合併

如果您使用的是配對末端數據集,我們可以識別重疊的序列讀對,因此可以合併爲單個序列。爲此,我們使用工具VSEARCH,可以在以下網站上找到該工具:

Exmaple only, do not run!
vsearch --fastq_mergepairs mouse1_trim.fastq --reverse mouse2_trim.fastq --fastqout mouse_merged_trim.fastq --fastqout_notmerged_fwd mouse1_merged_trim.fastq --fastqout_notmerged_rev mouse2_merged_trim.fastq

注意事項:

命令行參數是:
–fastq_mergepairs 指示VSEARCH使用reads合併算法來合併重疊的成對末端reads
–reverse 指示具有3’至5’(反向)配對末端reads的文件名
–fastqout 指示輸出文件包含重疊的配對末端reads
–fastqout_notmerged_fwd和–fastqout_notmerged_rev指示輸出文件包含不重疊的成對末端讀
如果要查看合併的reads長度的分佈,可以使用fastqc檢查reads屬性:

fastqc mouse_merged_trim.fastq
firefox mouse_merged_trim_fastqc.html

reads質量過濾

Trimmomatic用於刪除讀物中的銜接子和修剪低質量鹼基,它使用滑動窗口方法刪除reads中低質量鹼基的連續區域。但是,值得強加一個總體reads質量閾值,以確保在我們的分析中使用的所有reads均具有足夠的無差錯。爲此,我們使用可在此網站上找到的工具VSEARCH (在處理配對末端數據時,此步驟應在reads合併步驟之後執行):

vsearch --fastq_filter mouse1_trim.fastq --fastq_maxee 2.0 --fastqout mouse1_qual.fastq
注意事項:

命令行參數是:
–fastq_filter 指示VSEARCH使用質量過濾算法刪除低質量reads
–fastq_maxee 2.0預期的錯誤閾值。設置爲1。任何質量得分表明平均預期錯誤數量大於1的讀數都將被過濾。
–fastqout 指示輸出文件包含高質量的過濾reads
使用FastQC檢查reads質量:

fastqc mouse1_qual.fastq
mouse1_qual_fastqc.html與以前的報告進行比較,以查看以下各節中的更改:

基本統計
每鹼基序列質量
每序列質量

問題2:每次reads序列質量曲線如何變化?

步驟2.刪除重複的reads

爲了大大減少識別和過濾rRNA讀段所需的計算時間,我們使用可從本網站獲得的軟件工具CD-HIT執行去重複步驟,以刪除重複的讀段。

wget https://jiawen.zd200572.com/hla/cd-hit-v4.8.1-2019-0228.tar.gz --no-check-certificate
tar zxvf cd-hit-v4.8.1-2019-0228.tar.gz
cd cd-hit-v4.8.1-2019-0228/
make openmp=no
 cd cd-hit-auxtools
  make
cd-hit-v4.8.1-2019-0228/cd-hit-auxtools/cd-hit-dup -i mouse1_qual.fastq -o mouse1_unique.fastq

注意事項:

命令行參數是:
-i:輸入的fasta或fastq文件。
-o:包含去重複序列的輸出文件,其中唯一的代表序列用於表示具有多個重複的每組序列。
mouse1_unique.fastq.clstr創建第二個輸出文件,該文件確切顯示由去複製的文件中的每個唯一序列表示的複製序列,mouse1_unique.fastq2.clstr還創建了第三個空的輸出文件,該文件僅用於配對末端reads。
問題3:您能找到多少個獨特的reads內容嗎?

儘管在這個小型數據集中複製的reads次數相對較少,但對於較大的數據集,此步驟可以將文件大小減少多達50-80%

步驟3.去除載體污染

爲了識別和過濾來自載體,銜接子,接頭和引物污染源的讀數,我們使用了Burrows Wheeler序列比對器(BWA)和BLAST樣比對工具(BLAT)來搜索奶牛序列數據庫。作爲用於識別污染性載體和銜接子序列的參考數據庫,我們依賴於UniVec_Core數據集,該數據集是已知載體以及從NCBI Univec數據庫派生的常見測序銜接子,接頭和PCR引物的fasta文件。請首先將其下載到您的工作目錄中。

axel ftp://ftp.ncbi.nih.gov/pub/UniVec/UniVec_Core
現在,我們必須使用以下命令爲BWA和BLAT的這些序列生成索引:

接下來,我們可以使用BWA對讀段進行對齊,並使用以下命令使用Samtools篩選出與矢量數據庫對齊的所有讀段:

bwa index -a bwtsw UniVec_Core
samtools faidx UniVec_Core
makeblastdb -in UniVec_Core -dbtype nucl

接下來,我們可以使用BWA對讀段進行對齊,並使用以下命令使用Samtools篩選出與矢量數據庫對齊的所有讀段:

bwa mem -t 4 UniVec_Core mouse1_unique.fastq > mouse1_univec_bwa.sam
samtools view -bS mouse1_univec_bwa.sam > mouse1_univec_bwa.bam
samtools fastq -n -F 4 -0 mouse1_univec_bwa_contaminats.fastq mouse1_univec_bwa.bam
samtools fastq -n -f 4 -0 mouse1_univec_bwa.fastq mouse1_univec_bwa.bam

注意事項:

用於執行以下任務的命令:
bwa mem:生成與載體污染物數據庫的讀數比對
samtools view:將bwa的.sam輸出轉換爲.bam,以進行以下步驟
samtools fastq:生成所有的fastq輸出reads映射到向量污染物數據庫(-F 4)和所有reads沒有映射到向量污染物數據庫(-f 4)
問題4:您能否找到映射到向量數據庫的BWAreads數目?

現在,我們想對使用BLAT的讀段執行其他比對,以濾除與載體污染數據庫對齊的所有剩餘reads。但是,BLAT僅接受fasta文件,因此我們必須將reads內容從fastq轉換爲fasta。可以使用VSEARCH完成。

vsearch --fastq_filter mouse1_univec_bwa.fastq --fastaout mouse1_univec_bwa.fasta
注意事項:

所使用的VSEARCH命令–fastq_filter與步驟1中用於過濾低質量reads的命令相同。但是,這裏我們沒有提供過濾條件,因此所有輸入reads都傳遞到輸出fasta文件。
現在,我們可以使用BLAT對載體污染數據庫進行額外的比對。

blat -noHead -minIdentity=90 -minScore=65 UniVec_Core mouse1_univec_bwa.fasta -fine -q=rna -t=dna -out=blast8 mouse1_univec.blatout
注意事項:

命令行參數是:
-noHead:禁止.psl標頭(因此它只是一個製表符分隔的文件)。
-minIdentity:設置最小序列同一性爲90%。
-minScore:設置最低分數爲65。這是匹配減去不匹配減去某種空位罰分。
-fine:用於高質量的mRNA。
-q:查詢類型爲RNA序列。
-t:數據庫類型爲DNA序列。
最後,我們可以運行一個小的python腳本來過濾BLAT不能自信地與我們的載體污染數據庫中的任何序列比對的讀數。

注意事項:

./1_BLAT_Filter.py mouse1_univec_bwa.fastq mouse1_univec.blatout mouse1_univec_blat.fastq mouse1_univec_blat_contaminats.fastq

注意事項:

該腳本的參數結構爲: 1_BLAT_Filter.py <Input_Reads.fq> <BLAT_Output_File> <Unmapped_Reads_Output> <Mapped_Reads_Output>

在這裏,BLAT不會識別與載體污染物數據庫比對的任何其他序列。但是,我們發現BLAT通常能夠找到BWA無法識別的比對,特別是在搜索由全基因組組成的數據庫時。

在數百萬個大型reads數據集中對BWA遺漏的矢量污染物進行了一些比對。

步驟4.刪除主機reads

爲了識別和過濾宿主讀物(這裏是小鼠來源的讀物),我們使用小鼠DNA序列數據庫重複上述步驟。爲了我們的目的,我們使用從Ensembl下載的小鼠基因組數據庫。

wget ftp://ftp.ensembl.org/pub/current_fasta/mus_musculus/cds/Mus_musculus.GRCm38.cds.all.fa.gz
gzip -d Mus_musculus.GRCm38.cds.all.fa.gz
mv Mus_musculus.GRCm38.cds.all.fa mouse_cds.fa

然後,我們重複上述步驟,爲BWA和BLAT的這些序列生成索引:

bwa index -a bwtsw mouse_cds.fa
samtools faidx mouse_cds.fa
makeblastdb -in mouse_cds.fa -dbtype nucl

現在,我們使用BWA和Samtools對齊並過濾出與我們的宿主序列數據庫對齊的所有reads:

bwa mem -t 4 mouse_cds.fa mouse1_univec_blat.fastq > mouse1_mouse_bwa.sam
samtools view -bS mouse1_mouse_bwa.sam > mouse1_mouse_bwa.bam
samtools fastq -n -F 4 -0 mouse1_mouse_bwa_contaminats.fastq mouse1_mouse_bwa.bam
samtools fastq -n -f 4 -0 mouse1_mouse_bwa.fastq mouse1_mouse_bwa.bam

最後,我們使用BLAT對我們的宿主序列數據庫進行額外的比對。

vsearch --fastq_filter mouse1_mouse_bwa.fastq --fastaout mouse1_mouse_bwa.fasta
blat -noHead -minIdentity=90 -minScore=65  mouse_cds.fa mouse1_mouse_bwa.fasta -fine -q=rna -t=dna -out=blast8 mouse1_mouse.blatout
./1_BLAT_Filter.py mouse1_mouse_bwa.fastq mouse1_mouse.blatout mouse1_mouse_blat.fastq mouse1_mouse_blat_contaminats.fastq

問題5:BWA和BLAT與小鼠宿主序列數據庫比對了多少次?

可選:在您自己的未來分析中,您可以選擇使用向量污染數據庫和宿主序列數據庫的組合來同時完成步驟3和4cat UniVec_Core mouse_cds.fa > contaminants.fa。但是,一起執行這些步驟使您很難分辨您的讀物中有多少是專門來自宿主生物的。

步驟5.刪除大量rRNA序列

rRNA基因傾向於在所有樣品中高度表達,因此必須進行篩選,以避免組裝和註釋步驟的下游下游處理時間過長。您可以在此步驟中使用序列相似性工具(例如BWA或BLAST),但是我們發現[Infernal](http://infernal.janelia.org/)速度較慢,但它更敏感,因爲它依賴於協方差模型數據庫( CMs)描述基於Rfam數據庫的rRNA序列圖。由於對CM的依賴,Infernal在單個內核上進行約100,000次reads最多可能需要4個小時。因此,我們將跳過此步驟,並使用mouse1_rRNA.infernalouttar文件中的預計算文件precomputed_files.tar.gz。

tar -xzf precomputed_files.tar.gz mouse1_rRNA.infernalout
注意事項:

下面給出了用於使用地獄生成此輸出的命令:

命令行參數是:
-o:地獄輸出日誌文件。
–tblout:簡單的表格輸出文件。
–noali:從主輸出中省略對齊部分。這樣可以大大減少輸出量。
–anytrunc:放寬截斷對齊的閾值
–rfam:使用針對大型數據庫設計的嚴格過濾策略。這將加快搜索速度,但可能會降低靈敏度。
-E:報告E值爲0.001的靶序列。
從此輸出文件中,我們需要使用腳本來過濾rRNAreads:

vsearch --fastq_filter mouse1_mouse_blat.fastq --fastaout mouse1_mouse_blat.fasta
cmsearch -o mouse1_rRNA.log --tblout mouse1_rRNA.infernalout --anytrunc --rfam -E 0.001 Rfam.cm mouse1_mouse_blat.fasta

命令行參數是:
-o:地獄輸出日誌文件。
–tblout:簡單的表格輸出文件。
–noali:從主輸出中省略對齊部分。這樣可以大大減少輸出量。
–anytrunc:放寬截斷對齊的閾值
–rfam:使用針對大型數據庫設計的嚴格過濾策略。這將加快搜索速度,但可能會降低靈敏度。
-E:報告E值爲0.001的靶序列。
從此輸出文件中,我們需要使用腳本來過濾rRNAreads:

./2_Infernal_Filter.py mouse1_mouse_blat.fastq mouse1_rRNA.infernalout mouse1_unique_mRNA.fastq mouse1_unique_rRNA.fastq
注意事項:

該腳本的參數結構爲: 2_Infernal_Filter.py <Input_Reads.fq> <Infernal_Output_File> <mRNA_Reads_Output> <rRNA_Reads_Output>

在這裏,我們只刪除了數千個讀段,而不是映射到rRNA,但是在某些數據集中,rRNA最多可以代表80%的測序讀段。

問題6:鑑定了多少rRNA序列?現在還剩下幾讀?

步驟6.複製

去除污染物,宿主序列和rRNA後,我們需要將以前去除的重複讀段替換回我們的數據集中。

./3_Reduplicate.py mouse1_qual.fastq mouse1_unique_mRNA.fastq mouse1_unique.fastq.clstr mouse1_mRNA.fastq
注意事項:

該腳本的參數結構爲: 3_Reduplicate.py <Duplicated_Reference_File> <Deduplicated_File> <CDHIT_Cluster_File> <Reduplicated_Output>

問題7:確定了多少假定的mRNA序列?有多少個獨特的mRNA序列?

既然我們已經過濾了載體,銜接子,接頭,引物,宿主序列和rRNA,請使用FastQC檢查reads質量:

fastqc mouse1_mRNA.fastq -t 4
mouse1_mRNA_fastqc.html
問題8:濾出了多少總污染物,宿主和rRNA讀數?

步驟7.分類

現在我們有了推定的mRNA轉錄本,我們可以開始推斷我們的mRNA讀數的來源了。首先,我們將嘗試使用基於引用的短閱讀分類器來推斷我們閱讀的分類起點。在這裏,我們將使用[Kaiju](https://github.com/bioinformatics-centre/kaiju)基於參考數據庫爲我們的閱讀生成分類學分類。Kaiju可以在內存少於16GB(約13GB)的系統上使用proGenomes數據庫,以每分鐘數百萬次reads的速度對原核生物讀物進行分類。使用整個NCBI nr數據庫作爲參考大約需要43GB。同樣,快速分類工具需要大於100GB的RAM才能對大型數據庫的reads進行分類。但是,Kaiju對於車間中的系統仍然佔用了過多的內存,因此我們已經預先編譯了分類,mouse1_classification.tsv,在tar文件中precomputed_files.tar.gz。

tar --wildcards -xzf precomputed_files.tar.gz kaiju*
chmod +x kaiju*
tar -xzf precomputed_files.tar.gz mouse1_classification.tsv nodes.dmp names.dmp

注意事項:

您將使用的kaiju命令如下:
./kaiju -t nodes.dmp -f kaiju_db.fmi -i mouse1_mRNA.fastq -z 4 -o mouse1_classification.tsv
命令行參數是:
-t:分類ID的層次表示
-f:kaiju的預先計算的索引
-i:輸入內容爲
-z:系統上支持的線程數
-o:kaiju分類標準的輸出文件
然後,我們可以進行分類閱讀並進行補充分析。首先,我們將分類的特異性限制在屬級分類單元上,這限制了虛假分類的數量。
./4_Constrain_Classification.py genus mouse1_classification.tsv nodes.dmp names.dmp mouse1_classification_genus.tsv
注意事項:

該腳本的參數結構爲: 4_Constrain_Classification.py <Minimum_Taxonomic_Rank> <kaiju_Classification> <nodes_file> <names_file> <Output_Classifications>

然後,我們使用Kaiju生成人類可讀的分類摘要。

./kaijuReport -t nodes.dmp -n names.dmp -i mouse1_classification_genus.tsv -o mouse1_classification_Summary.txt -r genus
注意事項:

命令行參數是:
-t:分類ID的層次表示
-n:與每個分類ID對應的分類名稱
-i:海歸類分類
-o:摘要報告輸出文件
-r:將爲其生成摘要的分類等級
問題9:kaiju分類了幾讀?

最後,我們將使用[Krona](https://github.com/marbl/Krona/wiki)生成數據集分類組成的分層多層餅圖摘要。

./kaiju2krona -t nodes.dmp -n names.dmp -i mouse1_classification_genus.tsv -o mouse1_classification_Krona.txt
tar -xzf precomputed_files.tar.gz KronaTools
sudo KronaTools/install.pl
KronaTools/scripts/ImportText.pl -o mouse1_classification.html mouse1_classification_Krona.txt

然後,我們可以使用網絡瀏覽器查看此數據集的餅圖表示形式:

mouse1_classification.html

看這張交互式的圖還是很漂亮的。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-yQV24yHJ-1585382027529)(https://jiawen.zd200572.com/wp-content/uploads/2020/03/krona.png)]

問題10:在我們的數據集中,最豐富的家庭是什麼?什麼是最豐富的門?
提示:嘗試減小Max depth屏幕左上方的值,和/或雙擊特定的分類單元。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章