使用納米孔測序數據進行16S-DNA條形碼研究的計算方法[綜述]

摘要

通過對16S核糖體RNA(16S rRNA)基因進行測序來評估細菌多樣性已廣泛用於環境微生物學中,特別是自從高通量測序技術問世以來。這些技術帶來的另一項創新是需要開發新的策略來管理和研究生成的大量測序數據。這種情況刺激了生物信息學領域的快速擴展,發佈了新的工具,主要用於使用Illumina技術生成的測序數據的下游分析和解釋。近年來,已經開發出第三代測序技術,並已與前一種測序策略並行和互補地應用。尤其是,牛津納米孔技術公司(ONT)推出了納米孔測序技術,該技術已在分子生態學家中廣爲流行。納米孔技術提供了低廉的價格,便攜性和快速的測序通量。這項強大的技術最近已通過16S rRNA分析測試,顯示出令人鼓舞的結果。但是,與以前的技術相比,缺乏專門用於分析納米孔16S序列的生物信息學工具和標準。由於其顯著的特徵,研究人員最近開始在16S rRNA測序研究中對MinION的適用性進行評估,並獲得了顯蓍的結果。在這裏,我們對應用於微生物組研究的MinION技術的最新進展進行了綜述。

1.介紹

微生物羣落的功能,相互作用和動力學被認爲對生態平衡和生命的存在至關重要[1],[2]在實驗室條件下只能培養不到1%的微生物這一事實[3]爲提供精確的微生物世界規模以及在分類學背景下研究微生物多樣性提出了歷史限制。

由於分子系統發育的基礎是在1960年代和70年代建立的,因此16S rRNA基因已被廣泛用於原核生物的分類研究[4],[5]16S rRNA是所有原核細胞中存在的小核糖體亞基(SSU)的一部分,該分子的編碼基因具有一些獨特的特徵,使其適於分類學分析:1)它普遍存在,在所有原核生物和古細菌生物中均被發現[6];2)相對較小(〜1500 bp)和功能的高度保守[5],3)16S rRNA基因中可變區的存在是物種間進化速度不同的結果,可用於區分不同的細菌羣[7],[8],以及4)物種中高度保守區的存在。基因序列,可用於設計基因中鑑定出的不同高變區(共9個,V1-V9)側翼的通用引物[9]。另一方面,使用16S rRNA進行細菌鑑定存在一些侷限性,包括細菌基因組中這些基因的拷貝數可變,某些細菌類在物種水平上的分類學分辨力低以及對生物分類的偏好性。序列取決於爲分析選擇的可變區[10]

直到1990年代後期,僅在分類學背景下才應用16S rRNA基因來根據從純淨(大多爲臨牀)培養物中獲得的單個細菌來唯一地定義物種[6],[11]。然而,1997年,Pace等人。[12]首次通過使用Sanger測序採用16S rRNA基因的序列,首次描述了無需在實驗室中培養的微生物羣落的組成。這項工作導致建立了一種研究微生物羣落的通用方法。如今,對16S rRNA進行序列分析仍是研究微生物多樣性的金標準,可對臨牀和環境樣品中存在的原核生物進行準確的分類學分析[11]。,[12]

Sanger測序技術在微生物羣落研究中的引入標誌着微生物生態學領域的一場革命,並徹底改變了評估微生物多樣性的方式。但是,這種方法需要分析單個序列,這意味着需要克隆步驟作爲研究樣品的關鍵先決條件(圖1a)。結果,最多可以生成約1000個鹼基的序列。但是,由於Sanger平臺的通量表1),可分析的序列數受到限制。因此,就時間和成本而言,使用Sanger測序對細菌多樣性進行全面評估已成爲一個嚴峻的挑戰。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-Wnwlw7xc-1586582356836)(https://ars.els-cdn.com/content/image/1-s2.0-S2001037019303745-gr1.jpg)]

圖1。各代測序技術最常用的DNA條形碼測序策略。(a)第一代測序(Sanger)。在這種方法下,經典條形碼編碼是通過從環境DNA樣品中擴增全長16S rRNA基因來完成的。一旦獲得擴增子,就進行16S擴增子的克隆,將序列添加到載體中,然後轉化入宿主。最後,通過Sanger方法進行質粒提取和純化,並對16S rRNA插入片段進行測序。(b)第二代測序(Illumina)。從環境DNA樣品中,進行de 16S rRNA基因特定區域的PCR擴增;根據研究範圍,可以擴增16S基因的一個或兩個區域,其中最常使用的區域是V1-V2和V3-V4;通過使用這些區域,通常使用配對的末端文庫(DNA片段與末端連接有接頭的DNA片段的混合物,並準備進行測序)製備,接頭(與核酸分子連接的外源核酸)測序)和索引(唯一的DNA序列連接到測序文庫中的片段,它們允許在同一測序運行中對不同樣品進行後驗分選和鑑定)添加到16S擴增子極端,最終測序出長度約300 bp的文庫在Illumina MiSeq平臺上。(c)第三代測序(納米孔)。這種最近開發的方法開始於使用通用引物從環境DNA擴增全長16S rRNA基因。同時,在同一PCR反應中,將用於多重化的指標添加到擴增子中;一旦擴增子被純化,就進行文庫製備過程,包括在16S擴增子的特定標記區域添加蛋白質(文庫製備10分鐘);最後,樣品的直接測序在MinION測序儀上進行。

表1。使用DNA條形碼方法進行16S宏基因組分析的可用測序平臺的比較。

Sequencing Platform Read Length (bp) Accuracy Output Sequencing Chemistry Run Time Advantages in Metabarcoding approaches
Sanger 400–900 99.999% 1.9–84 Kb Dideoxy chain termination 20 min −3 h Long read length, high quality
Illumina MiSeq 75–300 99.9% 13.2–20 Gb Sequencing by Synthesis 21–56 h High Throughput, read quality
MinION >200,000 ~95% ~50 Gb Single Sequencing real time-long reads 1–48 h High Throughput, Long read length, portability
PacBio 10–15 Kb 99.999 5–10 Gb Single Sequencing real time-long reads 4 h Long read length and quality

在全球範圍內,高通量測序或第二代測序(SGS)技術的出現及其在2000年代初期在實驗室中的快速廣泛應用代表了微生物生態學的範式轉變。這些新技術提供的特徵性高輸出和數據準確性,以及消除繁瑣且耗時的步驟,例如Sanger測序所需的克隆DNA片段和測序產物的電泳分離,使得在短期過程中生成大量測序數據成爲可能。在開創高通量測序的不同公司中,Illumina在市場上處於領先地位,已成爲標準測序技術,並且是微生物生態學研究中最常使用的技術[13],[14]。通過該技術生成的序列中的常見元素是長度縮短(從50 bp到300 bp),高通量(從2 Gb到750 Gb),高精度和降低的成本(大約從每Gb 40美元起,譯者注應該是Miseq的價格)[15]表1)。

但是,由於Illumina和Sanger技術在序列長度方面的差異性,單獨使用Illumina測序無法獲得16S rRNA基因的全長序列。爲了克服這一限制,通常使用Illumina進行16S基因分析僅限於16S rRNA的特定可變區,而不是完整的基因( 1b)。但是,就輸出,準確性和速度而言,Illumina測序的顯蓍特徵使這項技術成爲了迄今爲止基於16S分析的幾乎所有最重要研究的技術,包括人類微生物組計劃[16],地球微生物組計劃[17]和極端微生物組計劃[18]

1.1 當前在16S宏基因組學研究中應用的分析方法

高通量測序技術帶來的另一項創新是需要新的策略來管理和研究生成的大量測序數據。從用戶的角度來看,這種變化涉及從標準計算機中普通用戶可訪問的基本計算機程序的應用到對需要高級生物信息學技能的複雜計算分析的需求。這種情況刺激了應用於微生物生態學研究的生物信息學領域的迅速擴展,主要是因爲發佈了用於下游分析和測序數據解釋的新工具。如今,有大量強大的工具可用於有效集成不同類型的數據[15],[16],[17]

在這種情況下,目前有幾種用於處理擴增子測序數據的生物信息學程序和工具,其中大多數設計用於16S rRNA基因的V3和V4可變區。進行16S擴增子分析的最受歡迎的軟件包是QIIME [20],MOTHUR [21]和Phyloseq [22]。特別是對於16S宏基因組學研究,標準分析軟件包和流程通常包括一個工作流程,該流程包括多路分解和質量控制步驟,然後生成操作分類單元(OTU挑選)和/或“擴增子序列變異分析”(ASV)分析,允許對代表性序列進行分類分配和樣品的多樣性分析圖2)。因此,序列的生物分類分配是關鍵步驟,也是微生物多樣性分析中最有用的元素。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-0KzUWfuC-1586582356840)(https://ars.els-cdn.com/content/image/1-s2.0-S2001037019303745-gr2.jpg)]

圖2 經典流程MOTHUR [21]和QIIME2 [20]及其用於16S rRNA擴增子分析的完整工作流程,“通用過程”流程包含兩個流程中的所有通用步驟。

圖2顯示了16S rRNA Illumina序列最常規工作流程的詳細流程。儘管不同程序包之間存在差異,但是工作流中的主要組成部分是模擬的,並且共享一個通用過程,包括:序列的質量控制,聚類或ASV分析,分類分配和多樣性分析圖3)。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-qqsjeyaQ-1586582356842)(https://ars.els-cdn.com/content/image/1-s2.0-S2001037019303745-gr3.jpg)]

圖3。推薦的MinION 16S rRNA擴增子管線用於細菌多樣性分析。[90],[91],[92]

2 第三代測序技術

近年來,已經開發了第三代測序(TSG)技術,並已與前一種測序策略並行和互補地使用。這些新技術可以實時檢測單個DNA分子,併產生非常長的讀取(從1到100 kb)。2011年,太平洋生物科學公司(Pacific Biosciences)引入了首個TSG技術,稱爲單分子實時測序[19],[ 20]。新測序儀,特別是Sequel的最新版本,通過將讀取長度和每次運行的吞吐量分別增加10倍和100倍,提高了輸出。但是,儘管該新平臺比以前的版本便宜兩倍,但其成本效益仍低於Illumina,因此該平臺在16S宏基因組學研究中的應用仍然很少。此外,錯誤率與第一個PacBio版本相同(〜13%)[25],並且輸出仍然低於Illumina。因此,價格和有限的產量限制了PacBio系統在微生物羣落研究中的應用[22],[23],[24]表1)。

2014年,牛津納米孔技術(ONT)引入了納米孔測序[28]。納米孔測序技術是在1980年代末開發的[29],儘管該測序技術於2012年首次成功使用[30]。該測序技術可直接檢測核苷酸,而無需進行主動的DNA合成,因爲長鏈的單鏈DNA穿過了蛋白質納米孔,該蛋白質納米孔穩定在耐電的聚合物膜中[25],[26],[ 27]。具體而言,核苷酸檢測基於設置跨膜的電壓,該電壓由傳感器組成,該傳感器能夠實時檢測DNA分子通過時佔據孔的核苷酸移動的離子電流變化。

運用這一技術,ONT於2014年發佈了MinION平臺,它具有一些顯蓍的優勢,例如低價格,便攜性和快速測序化學[33]。MinION基本上是支持Flowcell的基礎,該Flowcell負責直接測序單個DNA鏈,這些DNA鏈可在納米尺寸的納米孔中轉移到半導體膜中[34]。。MinION納米孔測序儀最顯蓍的特點是Flowcell產生的序列長度和每次運行可產生的數據量。而且,MinION是一種小型測序設備,是當今市場上最小的測序設備,尺寸爲10×3×2 cm,重量爲87 g。一個特殊的特徵是,測序過程不像Illumina和PacBio [35]那樣利用次級信號,例如光或pH 。根據製造商的說法,R9.4.5版Flowcell中使用的最新化學試劑可提供約95%的精度,並具有約20 Gb的輸出。但是,R9.4.5Flowcell產生的 reads質量仍低於Illumina的 reads,後者的準確性爲99.9%(表1)。)。納米孔reads的典型問題是序列中人爲產生的插入和缺失現象頻繁出現,這可能爲正確分析和解釋MinION數據帶來一些障礙[32]

ONT平臺的另一個顯蓍特點是可以從測序運行開始就進行數據分析,與Illumina平臺相比,這可以大大減少分析時間。此外,與目前用於16S宏基因組學研究的其他測序平臺相比,與MinION執行的分析相關的成本要低得多表1)。所有這些特性使MinION成爲許多實驗室可訪問的技術,從而在整個科學界迅速擴展了該技術的使用範圍。在此背景下,ONT開發的一個顯蓍的原始功能就是“納米孔社區”,它是ONT網站的一部分。這種“社區”提供了一個公共空間,用戶可以在其中獲得有關設備性能,方法和生物信息學分析的幫助和反饋。重要的是要注意,還有其他的ONT平臺可以產生比MinION平臺更多的具有相同特性的測序數據,例如GridION(100 Gb)和PromethION(6 Tb)[30]。

3 納米孔測序技術在16S rRNA研究中的潛力

納米孔測序爲16S rRNADNA條形碼研究帶來了第一代和第二代測序的好處。ONT平臺會產生長讀,從而可以通過快速,廉價和高通量的過程覆蓋16S rRNA基因的全長序列(V1-V9區)。全長16S rRNA序列最相關的優勢之一是,由於在分析中考慮了16S rRNA基因的所有信息位點,因此它們爲細菌鑑定提供了更高的分類學和系統發育分辨率[36]。通過Illumina測序,對16S rRNA進行測序的常規策略使用高變區V1-V2和/或V3-V4[ 37],並且僅基於大約〜300 bp的16S rRNA基因的這些短可變區來分配分類法。在大多數情況下,對這些短區域的分析提供了有限的分類學分辨率,無法可靠地區分超過屬水平的序列[31],[32]。此外,這些區域的選擇將直接影響分類學分配的特異性。例如,在宿主相關研究中,V4區域更好地代表了整個細菌的多樣性,而V1-V2對皮膚微生物羣的研究更具特異性。此外,當使用16S rRNA基因的不同部分時,不同細菌類別的生物分類學分辨率也不同[40]。相比之下,通過納米孔測序獲得的分辨率僅可與Sanger 16S rRNA測序所提供的水平相提並論,具有在分類羣之間更好地區分,更深的系統發生信號以及更準確的16S rRNA納米孔序列分類學定位的潛力[34]。,[31],[30]。ONT的另一個優點是,可以在較短的運行時間(1-48小時)內以可承受的價格(每個樣本約50美元)生成數據。表1

如前所述,MinION是當今最受歡迎的ONT平臺之一,已被廣泛用於基因組學和轉錄組學研究[35],[36],[37],[38],[39],[40],並且在過去兩年中,有關微生物多樣性的研究正在迅速發展。但是,儘管在微生物生態學研究中使用ONT技術具有明顯的好處,但是仍然有一些因素限制了在微生物多樣性的常規分析中採用這些新方法。專門設計用於16S基因全序列的工具的稀缺性使得對納米孔序列進行專門的分類學分析極爲困難。此外,納米孔16S序列質量有限表示使用其他技術(主要是Illumina)設計的現有工具來分析這些序列的嚴重限制

3.1 納米孔16S宏基因組學研究

使用納米孔測序來描述微生物多樣性的研究通常採用與以前的研究類似的方法,這些研究大多基於Illumina,無論納米孔產生全長16S序列的事實如何。使用Nanopore,可以使用通用引物(27F和1493R)通過PCR擴增全長16S rRNA基因。通過在擴增子序列中添加接頭來製備文庫,並使用握在MinION設備上的Flowcell直接對樣品進行測序( 1c)。

作者試圖通過使用兩個基於PCR步驟的協議來標準化不同的基於16S的擴增子條形碼協議,第一個過程是擴增16S rRNA基因,第二個過程是添加用於16S擴增子測序的接頭[48],[49]。另一種策略是基於使用ONT 1D2化學文庫製備方法,其中兩條DNA鏈都已測序(類似於Illumina的配對末端測序),通過對目標DNA的兩條鏈進行測序來提高讀取質量[50]。儘管在已發表的研究中使用納米孔測序對16S rRNA-DNA條形碼進行了不同的研究,但牛津納米孔技術公司的16S條形碼試劑盒已被廣泛使用,並獲得了令人滿意的結果[41],[42],[43],[44]

與樣品製備相似,引入的用於分析納米孔16S擴增子的方法學包括多種生物信息學工具。儘管如此,儘管使用了不同的工具,但所有已發表研究的中心過程都是基於分類分配的策略的應用[44],[43],[45],[47]

3.2 使用納米孔16S序列進行分類分配

與Illumina相比,缺乏專門用於分析納米孔16S序列的生物信息學工具和流程。使用最廣泛的工具是基於雲的數據分析服務EPI2ME(ONT),它提供了許多用於納米孔16S數據的端到端分析的工作流程:16S分類分類,條形碼協議和讀取質量過濾器。對於分類分配,將FASTQ文件上載到EPI2ME平臺的FASTQ 16S協議上,按質量對reads進行過濾,然後使用BLAST將分類分配給NCBI數據庫,最小水平覆蓋率爲30%,最小精度爲77%作爲默認參數(ONT)。但是,此工具不是公開可用的,只有ONT客戶可以通過網絡平臺訪問此工具。此外,優質的過濾器,適配器修整,缺省情況下,已經配置好了序列號或比對參數(例如同一性和序列的覆蓋範圍)的設置,並且用戶不能修改超出讀取質量初始參數的範圍。此外,帶有分類分配結果的最終輸出的格式與執行下游分析(例如多樣性和分類差異丰度)的其他工具不兼容

Cusco [48]使用工具Minimap將映射方法應用於分類學分配,並且能夠確定細菌分離株,模擬羣落和複雜皮膚樣品在屬和種水平上的分類學組成。但是,研究表明需要更精確的生物信息學方案以實現更可靠的結果。這項研究的另一個重要結果是,通過分析比16S rRNA基因更長的序列(例如rrn操縱子)(16S rRNA-ITS-23S rRNA; 4500 bp),可以提高分類學的準確性。Kai等使用Minimap2 [54]。[52]報告了物種一級的細菌鑑定,其中超過90%的 reads正確分配給每個物種。Hardegen等人進行的後續研究。[49]使用了基於BLAST的分類,得出的結論是,它們的流程可能適合納米孔測序中16S rRNA reads的分類分配。愛德華茲等。[51]使用VSEARCH [55]進行分類分配,並在門和科級別達到了〜75 %的置信度。Ma等人執行了另一種方法。[50],他們使用RDP分類器[56]進行了分類,並在純培養中報告了在門和屬水平上的平均註釋準確度分別爲93.8%和82.0%。Mitsuhashi等。[57]使用Centrifuge分析了膿胸患者的模擬胸腔積液[58]和BLAST進行分類分析,使用Centrifuge成功鑑定了模擬社區中存在的所有物種[58]。特納等。[53]描述了使用Centrifuge[58]進行分類的新入侵奈美球菌屬的微生物組,確定了與微生物組相關的2054種。

考慮到所有上述研究,Centrifuge[58]和Minimap [54]已成爲納米孔數據集最常用的分類學分類器[50],[41],[44],[43]和[45]。關於兩種生物信息學工具的特性,Centrifuge[58]當使用包含多個高度相似的參考基因組的數據庫(例如細菌物種的不同菌株)的數據庫時,它能夠準確識別 reads。此外,Centrifuge的工作原理是建立一個基因組數據庫,在其中識別出這些基因組的獨特片段,從而建立一個FM索引(用於全文本模式搜索的壓縮數據結構)。此FM索引可用於有效搜索數據庫中針對基因組片段的測序 reads。另一方面,Minimap2 [54]是一種通用的比對程序,可將長的DNA序列與參考基因組(例如人,真菌,細菌或病毒基因組)作圖。Minimap2比長讀作圖工具或cDNA作圖工具快30倍以上,並且具有更高的準確性,超過了專門用於單一類型比對的大多數比對器。儘管這兩種工具均已成功應用於納米孔數據的分析,但Minimap是專門爲繪製長reads而開發的,而Centrifuge則被設計用於宏基因組分析中的更通用目的(針對全基因組數據庫的映射)。但是,就參數設置和配置而言,Centrifuge提供了更多種類的模塊和多功能性,這可能導致更可靠的分類分配

其他工具,例如BLASTN,MEGABLAST和LASTZ [52],[50]也已用於使用Illumina測序的DNA條形碼研究中的分類分配。然而,重要的是要強調,由於納米孔和Illumina reads之間的差異,即由於序列上存在插入和缺失而導致的較長和較差的質量,因此許多此類標準生物信息學工具和管線都不適合與納米孔數據。在這種情況下,Magi等[60],[61]已經評估了比對和作圖工具,並得出結論,由於這些長序列的大小,高數量和不均勻的錯誤特徵,將納米孔 reads與數據庫作圖或比對特別具有挑戰性。這項研究還發現,諸如LAST,BWA,BLASR和MarginAlign之類的作圖和比對工具對納米孔數據的處理效率低下,而且這些分析的結果受序列長度的影響很大,因爲更長的序列包含更多的錯誤[53],[54],[14],[46]。此外,Centrifuge已被納入新工具MINDS [62]中,用於分析納米孔序列。基於這些研究,已證明Centrifuge和Minimap2是處理納米孔數據的最合適工具,並且可以認爲它們是當前的最佳選擇。

另外,分類分配中要考慮的第二個關鍵方面是數據庫的組成,它通常對正確分配給不同分類級別的序列的百分比有很大影響[63],[64]。迄今爲止,很少有可用於微生物鑑定的精選數據庫-SILVA [65],Greengenes [66],RDP [56]和NCBI [67]最常用於16S研究。SILVA數據庫包含細菌,古細菌和Eukarya領域的生物分類信息。它主要基於小亞基rRNA的系統發育(原核生物爲16S,真核生物爲18S)[64]。它們的分類學層次和等級是根據Bergey的分類學綱要,具有命名法的原核生物名稱列表(LPSN)和人工管理建立的[68]。Greengenes是最受歡迎和使用最廣泛的數據庫,因爲它是QIIME流程中的默認數據庫。它提供了基於無嵌合,一致的多個序列比對推斷的系統發育樹的細菌和古細菌分類法,但自2013年5月以來未進行過更新。NCBI分類法包含與提交NCBI序列數據庫相關的所有生物的名稱。它是根據當前的系統文獻手動整理的,使用了150多種資源。它包含一些代表不同生物的重複名稱。每個NCBI數據庫節點都有一個科學名稱,並且可能爲其分配了一些同義詞。重要的是要注意,這是MinION 16S序列分類文章中使用最多的數據庫[57],[51],[59],[53],[52]。RDP數據庫基於細菌,古細菌和真菌(真核生物)的16S rRNA序列。它包含可從國際核苷酸序列數據庫合作組織(INSDC)數據庫獲得的16S rRNA序列。另一個新的數據庫是EzBiocloud,它是一個物種級別的分辨率數據庫,由61700種/系統型組成,其中包括13132種/系統型,具有有效的名稱,以及62362個全基因組裝配體,在分類上按屬,種和方式分類。亞種水平[69]

一些作者使用這些數據庫評估了分類分配的差異,[64]並且顯示出NCBI在序列數量上是更大的,其次是SILVA,RDP和Greengenes。此外,他們發現Silva與NCBI擁有最多的分類單位,而GreenGenes的數據庫則較少。此外,只有GreenGenes 和NCBI可以將生物分類分配給物種級別等級,而SILVA僅允許屬作爲最低等級。**重要的是,NCBI數據庫並非針對所有微生物組進行管理,並且可能包含16S序列的重複副本,由於某些細菌類的數量過多,這可能會由於高估而導致分類分配上的偏差。**這方面的一個示例是NCBI存儲庫提供的屬於病原細菌組的大量可用序列。與臨牀菌株相比,屬於極端環境的序列在NCBI數據庫中仍然很稀少,並且在進行分類分配時可能不足。Park&Won 2018提供了更詳細的數據庫選擇指南[68]

選擇工具的最後考慮因素是輸出數據的格式,因爲它們不能與應用於下游分析的其他生物信息學工具兼容。這尤其與那些執行統計測試,生成圖和對樣本中識別出的生物分類圖進行比較分析的工具有關。表2總結了使用納米孔數據進行16S宏基因組學研究的可用工具的不同選擇和應用的詳細說明。

表2 DNA條形碼研究中用於分析Nanopore 16S數據的不同工具。

Analysis approach Data processes included Tools used for analysis Taxonomic Data Base Reference
Profiling of bacterial communities Basecalling, Demultiplexing, adapters and barcode trimming, chimera removal, taxonomic assignment Albacore V2.3.1, Porechop, Yacrd 0.3, Minimap, EPI2ME NCBI and rrn database [48]
In field metagenome bacterial community analysis Basecalling, Demultiplexing, Taxonomic assignment, diversity analysis Albacore v1.10, SiINTAX, usearch v10.0.240 Ribosomal Database Project [51]
Rapid bacterial pathogens identification Basecalling, human reads removal, bacterial reads taxonomic assignment Albacore 2.2.4, TanTan v13, Minimap2, R GenomeSync database, NCBI database [52]
Monitoring microbial of an anaerobic digestion system Basecalling, Demultiplexing, adapter trimming, Taxonomic assignment Metrichor, EPI2ME, poRe, Porechop, QIIME, BLAST, GreenGenes database [49]
Microbiome characterization Basecalling, OTU picking, taxonomy assignment. Metrichor v2.42.2, Poretools, QIIME 1.9. RDP classifier, BLASTn GreenGenes database [50]
Microbiome amplicon sequencing workflow Bassecalling, alignment, re-orientation of reads, de-novo clustering, chimera removal, Fast5-to-fastq, seqtk, INC-Seq, blastn, Graphmap, POA, chopSeq, nanoClust, R No taxonomic assignment [81]

3.3 限制超越納米孔測序數據進行分類分配

由於大多數已經開發出來分類分配的分析工具只可用於Illumina數據,不能用於納米孔序列,因此尚未系統地探索使用全長16S rRNA序列的潛在好處。完整的16S基因序列提供的更深的分類學分辨率可以比其他方法[68],[69]和[70]達到更高的特異性,達到屬和種的水平。這種方法已成功應用於工業過程的臨牀,法醫和質量控制中,由於其與醫學/人類的相關性,許多待鑑定的微生物在數據庫中得到了很好的表示[29],[61]

但是,在以前沒有研究過微生物羣落的其他生態環境中,分類學分配並不總是最好的方法。在這種情況下,生活在這些生境中的最具代表性的微生物可能仍未開發,因此它們的基因組數據不在數據庫中,這使得無法對許多 reads進行分類學鑑定。由於數據庫主要由16S rRNA基因的片段組成,並且全長序列的存在通常是一個例外,而不是常規,這種情況可能對納米孔數據更爲嚴峻,這限制了基於完整序列的可靠分類學鑑定基因。另一方面,沒有分類分配的大量reads的存在直接影響了對樣品中生物多樣性的現實測量,從而導致對物種真實數量的低估。在這種情況下,如第2節所述,爲克服這些侷限性以及由直接分類法讀取的 reads引起的偏差,通常將諸如操作分類學單元(OTU)拾取和/或去噪管線之類的方法用於16S Illumina數據分析[71],[72],[73] OTU揀選和ASV分析均減少了代表性序列的重複和錯誤,並允許在無數據庫限制的情況下分析細菌羣,從而實現了更可靠的分類分配,從而實現了更強大的功能微生物羣落的定義表3)。

表3 用於16S rRNADNA條形碼納米孔數據的生物信息學工具。

Process Tool Input file Programming languages Available from Reference
Basecalling Albacore Fast5 Python https://nanoporetech.com/ ONT
Guppy Fast5 Python https://nanoporetech.com/ ONT
Deep Nano fast5 Python https://bitbucket.org/vboza/deepnano [77]
Chiron Fast5 Python https://github.com/haotianteng/Chiron [78]
Sequencing report NanoPlot fastq, fasta, sequencing_summary (Albacore or guppy basecaller) Python https://github.com/wdecoster/NanoPlot [82]
pOre fastq, fasta R https://sourceforge.net/projects/rpore/files/ [83]
pauvre fastq https://github.com/conchoecia/pauvre Github
poretools fastq, fast5 Python https://github.com/arq5x/poretools [84]
Demultiplexing Albacore Fast5 Python https://nanoporetech.com/ ONT
qcat fastq Python https://github.com/nanoporetech/qcat Github
porechop fastq, fasta C++, Python https://github.com/rrwick/Porechop Github
Filtering and trimming NanoFilt fastq Python https://github.com/wdecoster/nanofilt [82]
Filtlong fastq C++, Python https://github.com/rrwick/Filtlong Github
Porechop fastq C++, Python https://github.com/rrwick/Porechop Github
Taxonomic assignment Minimap2 fastq, fasta C++, Python https://github.com/lh3/minimap2 [54]
Wimp fastq Cloud-based https://nanoporetech.com/ ONT
Centrifuge fastq, fasta g++ https://ccb.jhu.edu/software/centrifuge [58]
LASTZ fastq, fasta g++, python https://github.com/lastz/lastz Github
Clustering NanoClust USEARCH/VSEARCH format Python https://github.com/umerijaz/nanopore/blob/master/nanoCLUST.py [81]
CARNAC-LR paf C++, Python https://github.com/kamimrcht/CARNAC-LR [80]
Data exploration Pavian Kraken and MetaPhlan formats R https://github.com/fbreitwieser/pavian [85]
PHINCH biom Cloud-based https://github.com/PitchInteractiveInc/Phinch [86]
Krona Krona format https://github.com/marbl/Krona/wiki [87]
MEGAN6 OTU table http://ab.inf.uni-tuebingen.de/software/megan6/ [88]
Microbiome Analyst OTU table, taxonomy table Cloud-based https://www.microbiomeanalyst.ca/ [89]

爲了執行分類分配和多樣性分析,需要執行這些分析(圖3)。如前所述,在Illumina測序管線中最常使用DADA2和Deblur之類的工具。但是,由於Nanopore 16S讀取的特殊特性(長度和質量),DADA2和Deblur或基於ASV檢測的任何其他算法的使用,至今尚無法用於Nanopore數據。通常通過納米孔測序引入的錯誤數量(主要是插入/缺失)代表了在reads之間發現相似性的相當大的限制。此外,由於reads質量差而導致的人爲序列差異,即使它們來自單一生物體,也可能產生以下效果:將每個 reads識別爲單個序列變異體,從而高估了細菌多樣性[71]。因此,使用不適當的OTU聚類工具或使用ASV方法對Nanopore reads進行分析可能會提供樣品微生物多樣性的完全不正確的圖片,顯示出具有非常不同序列的數據集。

因此,儘管ASV方法是評估細菌多樣性的最完整方法,但是它對於納米孔數據分析是不可行的,唯一可用的選擇是基於OTU的聚類方法的應用。然而,當應用最流行的聚類算法[74],例如UCLUST [75],VSEARCH [55]或CDHIT [76]時,可以發現與使用ASV識別的侷限相似的侷限性。在最近的研究中評估了使用流行的流程QIIME分析納米孔16S序列的情況[50],表明該工具在OTU選擇步驟中失敗,這證實了上述將Illumina設計的工具應用於納米孔數據的問題。通過執行封閉或開放參考OTU聚類,將僅對一小部分數據進行聚類,並且數據集的主要部分將由單例組成,這會導致對樣本中細菌多樣性的錯誤高估。

如前所述,讀取質量是納米孔數據分析的最重要限制之一。鹼基檢出是提高序列質量的最決定性的過程。納米孔測序基於檢測DNA鏈穿過納米孔而產生的電流變化。理想情況下,每個基極都應具有特定的電流變化,稱爲事件。每個事件都通過當前的均值和方差以及事件持續時間進行總結[77],[51]。將該事件翻譯成DNA序列稱爲鹼基檢出過程。ONT的原始basecallers使用隱馬爾可夫模型(HMM)的基礎上,使用機器學習然而當今新的策略在所有的現代納米孔序列basecallers,如Guppy,DeepNano,和Chiron[77] ,[78] 。這種基於機器學習的鹼基識別程序使用可以使用實際測序數據進行訓練的神經網絡。已經證明,使用機器學習方法可以有效提高納米孔測序數據的質量,並限制原始數據中常見的鹼基修飾,插入和缺失的影響[79]。因此,在納米孔數據上使用這些新的機器學習方法對於改善序列質量至關重要,並且短期內可能會允許對納米孔序列進行必要的改進,使其超出16S序列的分類分配範圍。

最後要考慮的重要一點是Illumina和Nanopore測序技術產生的讀取方向的差異。使用Illumina,從測序開始就定義了讀取方向,因此序列都處於相同方向,這極大地促進了生物信息數據分析。測序數據的這種同質性對於比對和聚類至關重要,因爲可以更輕鬆地比較 reads。另一方面,利用納米孔的一維測序化學,可以將接頭連接至DNA模板的一端或兩端[71]DNA鏈以隨機方向測序。因此,在鹼基檢出過程之後,數據集由彼此不互補的正向和反向序列組成。因此,爲達到一致的結果,在分析納米孔數據之前,必須結合一個額外的步驟來評估讀取的方向,這一點至關重要

根據前面各節中討論的有關使用工具及其在納米孔序列上的應用的要點,在圖3中提出了16S rRNA數據分析的工作流程。

4 。總結與展望

隨着現代測序技術的出現,基於微生物16S rRNA基因分析的微生物生態學研究已成爲DNA條形碼研究中最流行的技術之一。迄今爲止,大多數使用納米孔序列進行的研究均報告了適用範圍狹窄的流程,通常使用特定的生物信息學方案來檢測特定病原體或目標細菌羣或分類羣,而無需考慮對樣品中存在的整個微生物羣落進行分析。但是,當前大多數比對器,聚類算法和工具都無法處理Nanopore數據[74],這對於進行更全面的Nanopore 16S rRNA數據分析仍然是一個挑戰

由於分類分配帶來的潛在偏差,OTU聚類可能代表了更方便的選擇。在這方面,爲轉錄組創新簇開發的新工具可能代表了未來的探索選擇[66],[67]。正如一些轉錄爲基礎的研究已經與納米孔進行的,一個可能的替代方法是應用這些品種爲工具 de-novo 對源自單個基因的所有轉錄本進行聚類,並應用相同的策略將樣品中16S基因的所有變異聚類。此外,已經開發了其中一些工具來處理納米孔序列的特定特徵,因此,可以用作對來自納米孔的16S序列實施特定聚類工具的第一種方法。

最後,自從新測序技術的發展以來,數據分析的許多挑戰浮出水面。正確使用可用工具有助於擴大對納米孔的16S數據的使用,以進行微生物成分的首次評估。對於Nanopore,根據該技術的消費者和最終用戶的需求,工作主要集中在設計用於鹼基識別,樣本數據分離和物種分類分配的工具。當然,我們仍處於基因組革命的第一步,未來將爲擴展這些技術和開發新一代強大的生物信息學工具帶來新的可能性。有關身份,對齊方式,並且還必須評估每個數據集的數據庫選擇,特別是如果需要在物種級別進行識別的情況下。ONT於2019年發佈的Flowcell新版本(R10)採用了一種新的化學方法,將顯蓍改善數據的質量和數量,共識精度達到99%,輸出50 Gb。納米孔輸出的所有這些發展將爲生物信息學分析帶來新的挑戰,但也將帶來革新微生物生態學研究的新機會。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章