Base-calling for next-generation sequencing platforms (譯文)

第一次翻譯文獻,記錄下來,給自己一個堅持下去的動力。加油!翻譯中有一些專有名詞沒有譯過來,有一些不明白的也沒有翻譯疑問。翻譯的不好,希望能得到別人的指正,得到進步和提高,謝謝。


這篇文章主要內容是第二代測序平臺Illumina和Roche454下的各種base-caller的特點和比較,以及未來的一個展望。只翻譯了主要內容,圖片和參考文獻就不給出了,原始文章可以在這裏找到:http://www.ncbi.nlm.nih.gov/pubmed/21245079/


第二代測序平臺的base-calling方法

摘要

第二代測序平臺顯著地降低了DNA測序的費用。從光強度信號中推斷出鹼基的過程一般叫做base-calling。因此,讓人感興趣的是認識和提高從這些方法中獲取的測序序列的質量。最近,發表了許多關於base-calling的論文,主要特點敘述是關於base-calling偏差和建議的方法。在這篇評論裏,我們總結了最近在Illumina和Roche 454測序平臺下的base-calling方法的發展。

介紹

在過去的30年裏,DNA測序成爲了計算生物學,比較基因組學和一般生物學中的主力。傳統上,測序主要用Sanger's 方法【1】,經過這些年的改進其已經達到了一個頂點,在保持每個base錯誤率低到(10的-5次方)的前提下使長reads的長度上升到約1000bp【2】。但是對便宜而且快速的測序技術和大量資金投入的需求【3】導致了許多新的測序方法的發展。許多方法被合併進了商業產品中,包括Roche 454, Illumina, SOLiD, Polonator, Helicos, Pacific Biosciences和Bio Systems。與Sanger 測序相比,這些新一代測序技術提升了速度,在一個較低精確度下降低了價格併產生較短的read 長度。降低了價格允許我們在新的問題領域使用測序來進行探索,如評估基因組變異【4-7】。Illumina 曾經宣佈了一項使用少於$20000對人類基因組進行測序的服務。如果最終將這個價格壓低到$1000將允許我們像日常體檢測試一樣測序一個個體的基因組【8】。


新一代的測序技術依賴於一個複雜的化學過程的相互影響,硬件和光學傳感器。而分析傳感器數據來預測個體base的軟件無疑增加了它的複雜度。這個過程中的最後一步就是base-calling。雖然全部的產品流水線與測序平臺相似,但是測序過程中的機械上的細節將影響錯誤產生的類型。與不同測序平臺相關的錯誤對下游的分析有重要價值【9】。通過增加覆蓋範圍可以提升測序的精度,也就是對相同的DNA樣本進行多次重測序。那時測得的數據就彙總進一個有着較低錯誤率的一致序列【10】。相反,許多精確的base-caller因爲需要達到一個給定的精度而減少了覆蓋範圍,並且因此直接降低了測序的費用。


在這篇評論裏,我們關注在Illumina和Roche 454平臺下的base-calling算法的最近的發展。對於那些第三方程序,這兩個平臺完善的新一代的測序裝置已經發展成爲供應商base-calling實現的替代品。對於新一代測序技術的一個更廣闊的的綜述和數據處理流程,我們參考【11】。在下一部分我們簡要的描述一下Illumina平臺的技術,並且集中在它的偏差問題上。接下來回顧幾個最近發行的可供選擇的base-caller並且以精確度和速度爲依據來比較他們的表現。然後轉向Roche 454平臺並再一次關注他的技術方面的困難。隨着不同方法的優劣和在這個活躍的研究領域裏未來發展的動機的討論我們結束這次回顧。

Illumina

Illumina平臺依賴於一個單鏈DNA文庫的產生,通過將一個DNA樣本隨機打斷成片段。在模板上添加了通用的連接物後,模板散佈在一個有八個lane的流動槽(flow cell)上,並且固定在玻璃板上【12】。接下來是橋式擴增,這個過程中,玻璃表面上的相同的模板生成大量的clusters。在clusters中的模板的序列通過使用可逆的化學終止劑來決定【13】。在每個測序cycle中一個單熒光標記,3'-羥基核苷酸被合成到每一個充足的鏈。結合之後,熒光標記可以被成像技術所檢測。最後,爲了給下一次測序cycle準備充足的鏈,標記和終止劑被用化學方法去除。對這個過程一個更加詳細的描述在【14】。


Illumina平臺遭受了許多因爲不完美的化學過程和傳感器而造成的偏差(Figure1)。每當許多模板排列的時候,在模板準備的過程中會出現混合的clusters【15】。這樣的clusters需要通過下游的分析排除掉。在測序過程中,在給定cycle中合成base失敗時一個鏈會繼續發生滯後,這叫做phasing。另一方面,如果在一個cycle中,多個base被合成,這叫做pre-phasing。從一個cycle到另一個的過程中,因爲不完美的化學過程而發生的Phasing,pre-phasing和信號強度的衰減,導致在最終的reads中base-calling 錯誤的增加。此外,在早期的的化學反應中,因爲T染料的不完整的分裂導致的T(胸腺嘧啶)的累計已經被報道【15】。仍然有一些其他的因爲光學探測的限制導致的偏差存在。發散頻率光譜與四種染料部分的重疊相一致。結果,在每一個cycles觀測到的四倍的強度顯示了一些正相關。這種影響,通常被稱作cross-talk,被發現依賴於cycle【16】。最後,因爲光學的作用,跨過每個tile的強度是不均勻的,接近邊界的有更低的強度【17】。


BASE-CALLING

Illumina測序平臺通過GApipeline來運輸,它實現圖像分析(Firecrest),base-calling(Bustard)和與參考序列對齊。Bustard應用一個獨立於cycle的cross-talk的修正,然後是phasing和pre-phasing的修正。這些修正應用之後,有最高亮度的base被選擇。爲了質量控制,一個噬菌體PhiX174的樣本經常被包含進流動槽的八個lanes的一個。關於Bustard的base-calling算法的實現的一個詳細的描述在【19】。


最近兩年之內,許多關於提升原始的base-calling實現的論文被髮表。在他們之中第一個是Alta-Cyclic。它使用一個參數模型來dephasing並且使用一個依賴於cycle的cross-talk矩陣來校正cross-talk。使用支持向量機(SVM)來確定基於四個強度值的base。爲了解釋信號衰減和依賴於cycle的cross-talk,Alta-Cyclic對每一個cycle使用不同的SVM。爲了優化SVMs和phasing參數而使用監督式學習。Alta-Cyclic執行一個網格搜索來找那些可以在參考序列中最佳的預測base的SVMs的phasing參數,在每個格點需要培養SVMs。模型對Illumina平臺的每次run都做了優化。這個過程不僅僅計算昂貴,而且爲了生成足夠的培養數據它需要對參考基因組的部分進行重新測序。PhiX174 control lane 可以用來培養。


另外一個方法由一個叫做Rolexa【17】的程序包來實現。與Busraed一樣,Rolexa在使用二項分佈來dephasing之前,首先應用一個依賴於cycle的線性變換來解釋不同bases之間的cross-talk。最後,觀察到,因爲光學的影響,每一個tile的靠近中央的cluster比靠近邊界的cluster更加的明亮。Rolexa通過對每個tile的強度值裝配一個二維的局部加權散點光滑(Lowess)模型來糾正這些光學的影響。應用這三個修正法之後,Rolexa使用一個基於高斯混合的clustering算法來進行base-calling。由此,和報道的IUPAC(國際理論和應用化學聯合會)準則一樣,一個不確定性的測量可以被計算用來判定最有可能的bases。IUPAC準則被用來在base-calling過程中通過additional letters來編碼二義性。舉個例子,S可以代替C或者G。然而,自從所有的其他實現都使用Phred scores【20】來做報告而不是IUPAC準則,這個方法很難來比較。Rolexa的一項優點是它不依賴於監督式學習,所以消除了爲了培養而對已知的模板進行重測序的需求,也因此增加了總體的產出。


BayesCall【19】 和Seraphim【21】 實現更加的複雜,滿是參數模型。除了cross-talk,phasing ,pre-phasing,他們同樣對信號衰減進行明確的建模。此外,Seraphim 對每個read 在PCR擴增一步的不同做出解釋【21】,並且BayesCall 加入參數來建模從一個cycle傳到下一個cycle的殘留影響。對BayesCall,完整的模型是依賴於cycle的,它顯著地增加了參數的總數。使用期望最大化(expectation maximization)過程來進行參數估計。在Rolexa中使用的clustering方法,期望最大化不會依賴於監督式學習也因此消除了對培養數據的需求。在這兩者的論文中,判定的是有最大後驗概率(MAP)的base。因爲其他的base的概率可以被輕鬆地計算出來,所以可以清晰地報道有意義的質量指標。BayesCall的一個更快的版本是naiveBayesCall【22】。它使用和BayesCall一樣的模型和相同的算法來進行參數估計。在base-calling過程中,這個近似的的算法通過量級的調整雖然稍微犧牲了精確度但是提升了速度。


而Ibis【18】使用的是一個完全不同的方法。不是對每個可能的錯誤來源進行建模,而是直接對未經處理的強度信號使用multi class SVMs。使用模擬的方法,推斷在一個關於phasing, pre-phasing 和T 的累加的簡單模型之下,大多信息都被包含在之前的,現在的,和之後的cycle的強度變量中。因此SVMs使用當前cycle 的強度值,它的前驅和後繼作爲輸入。爲了培養依賴於cycle的SVMs,一個已知的序列被包含進來,或者當重測序一個基因組時,可能使用參考基因組來培養。


前面所講的任何一個方法使用之前都要從原始圖像提取強度數據。這個圖像處理過程通常使用Bustard’ Firecrest 模塊。BING【23】 和 Swift【15】是完整數據處理管道的可供選擇的實施方案。這兩者的圖像處理算法與Bustard在許多機械的細節上有所不同。BING有獨立的對base-calling 圖像分塊中每個像素的選項,而不是首先識別相同模板的clusters。在base-calling過程中,這兩種實現都依賴於連續的修正,就像Bustard,並且不實行詳盡的統計學過程。與Bustard一樣,Swift提供了通道給圖像後(post-image)處理的數據,並且因此可以被用來與前面描述的base-callers中的一種相結合。


所有實施方法的一個總結和分別的統計方法論展示在Table1。實踐證明,隨着Illumina's Genome Analyzer II的引進,所有這裏評論的base-caller都支持了更長的reads。


表現的比較

快速的並且偶爾同時出現的新方法使我們很難評估他們的相對的表現。雖然被獨立的作者們所報道的關於比較的研究必須要小心謹慎的解讀,他們還是提供給我們一些思考。Kircher【18】 及其他所有人報告了Ibis勝過Alta-Cyclic和Rolexa,而這三個依次都比Bustard有更高的精確度。注意到在這個比較中Rolexa被強迫不使用IUPAC準則。在Kao【19】等人的報告中,BayesCall要比Alta-Cyclic更好。依照Phred質量分數,Ibis和BayesCall都被報道比Alta-Cyclic有更精確的得分,而Alta-Cyclic是在Bustard之上改進而來的。爲了遵守運行時間,Kircher等人報告了下面的時間控制(timings)。Bustard無疑是經受考驗的最快的實現方法,在一個單處理機上對一個完整的control lane上的51個cycle數據集的base-calling ,並且進行參數估計只需要50分鐘。而Ibis,Rolexa和Alta-Cyclic分別需要超過Bustard 3倍,21倍和73倍的計算資源。Alta-Cyclic運行在一個cluster上,這降低了其base-calling的效率。對於BayesCall和Seraphim,沒有可用的直接的比較。從各自的出版物中的計時報告呈現出BayesCall需要大概20小時來進行參數估計,6個小時來對一個76cycle數據集的一百萬個bases進行判定。因此,在沒有並行處理的情況下,它需要幾天的時間來處理一個並行的lane。然而就像上面所討論的,一個BayesCall值得注意的更快的版本,叫做naiveBayesCall近期發表了。至於Seraphim,報告的base-calling,參數估計和在一個15個節點的cluster上的control lane上進行mapping reads的時間小於2小時。


我們力圖在相同的數據集和硬件上比較這裏所評論的所有的base caller。然而,這被證明是非常困難的,許多程序包不能免費獲取,不再維護,或者充滿了實際的問題(Table1)。不管這些重要的影響,我們沒能成功的獲取,安裝或者運行Bing,Seraphim和Swift。使用V1化學過程並從phiX174 control lane獲得的長度爲51,reads爲286847 的數據集可以用來對其他的base caller 進行評估(Figure2A)。除了Rolexa,所有的base caller 都表現出在Bustard之上的一個明顯的提升。Ibis表現最好,緊跟着是naiveBayesCall和Alta-Cyclic。


關於計算花銷,我們在標準Linux機器上對Ibis,BayesCall,naiveBayesCall和Rolexa分別測量了培養或參數估計時間和basecalling的時間(Figuare2B)。對於培養時間,Ibis比(naive)BayesCall快了一個數量級,而Rolexa不需要任何直接的參數估計定相(phase)。但是在實際中,大多數時間都花費在了判定bases。遵照這個,Ibis是目前四個程序包中最快的一個。naiveBayesCall超過它的前任(BayesCall),其所提供的有效的改進是非常有意義的,這使它在實際中也可用。值得注意的,兩個最精確的base caller也是最快的兩個。


在各個軟件包中質量分數的報告有所不同:Ibis使用Phred scores;Bustard和Alta-Cyclic使用一個Illumina的獨特的編碼,BayesCall和naiveBayesCall返回一個錯誤的概率。爲了比較這些不同的方法,我們把他們都轉換成了Phred scores。然後我們比較分別從觀察到的base的錯誤率計算得來的Phred scores(Figuare2C)。在這個比較中,除了較低質量的base-calls,值得注意的是Bustard脫離了理想的線路,Alta-Cyclic對高質量的base-calls顯示了過高的估計,BayesCall和naiveBayesCall始終過高估計他們判定的質量。注意到對naiveBayesCall這個影響不太顯著。因爲從(naive)BayesCall獲取的平滑的曲線,它可能是對各自的質量分數找出了一個簡單而有效的修正。總體來說,最接近理想曲線的是Ibis。


對於base-callers的實際的使用,它們在更多最近的化學過程中的表現有很高的關聯。我們對naiveBayesCall進行評估,在V1(FC-104-100x)化學過程中它有最低的錯誤率,在V4(FC-103-300x)化學過程的數據集有長度爲81的217904個reads。對V4化學過程,我們獲取的naiveBayesCall的錯誤率是1.02%,而Ibis實現了一個更低的錯誤率0.97%。與舊的化學過程相比,現在的絕對錯誤率明顯的低,考慮到讀長增加了約60%,這真是一個非凡的成就。依據在V4化學過程報道的質量分數,從V1化學過程獲取的結果的線條中,Ibis同樣勝過naiveBayesCall。


base-calling for Roche 454 life sciences

Roche 454平臺以構建一個將左右兩邊連接的單鏈DNA文庫開始。序列片段被限制在磁珠上並且通過PCR擴增來增加下游的信號強度。理想情況下,在這個過程中,一個單個模板被附着在每個磁珠上,這導致了在每個磁珠上統一的clusters。然後把磁珠放置在一個叫做picoliterscale wells【24】的陣列上,每一個小孔(well)包含了一個單個磁珠。在這些預備步驟之後,使用焦磷酸測序方法來開始真正的測序。在每一個測序cycle中,加入一個單個物種的核苷酸(dNTP)。在小孔中核苷酸合成之後,會釋放焦磷酸基團,而這導致了亮度的突變。亮度被CCD傳感器探測,軟件探測包含模板DNA的小孔。這一步包含了圖像分析和base-calling。對於更詳細的細節描述,我們參考原始文獻【24】。


許多錯誤的原因被描述在【9】。首先,因爲不同DNA片段被綁定到一個單個磁珠而導致了混合的clusters的風險。在這種情況下,不可能探測到一個清楚的信號,並且從包含這樣的磁珠的小孔中取得的數據也應該被排除掉。第二,在每個cycle都存在補充的DNA單鏈的不完整的合成的微小可能,這將導致phasing。同樣的,如果前一個cycle的試劑沒有被完美的移除,可能會發生多個base被合成,導致pre-phasing【24】。主要的錯誤的源頭是thresholding(二值化)。臨界值被用來決定一個base是否被合成。臨界值是必要的用來決定更加精緻的(delicate)homopolymers(均聚物)的長度。均聚物是指相同base連續的重複組成。因爲一個均聚物的所有的bases都被包含進一個cycle,可以從信號強度來推測均聚物的長度。對均聚物的長度的錯誤的猜測導致了插入和缺失,而這是到目前爲止焦磷酸測序技術最常出現的錯誤【26】。


在原始的454論文中,包含模板的小孔通過檢測序列開頭的關鍵序列‘TCAG’來識別【24】。合成的bases的總數通過發散亮度的強度決定。已經表明的強度與均聚物的長度成線性關係,因此允許簡單的分類。均聚物長度的前(1/(4的n次方))被使用。爲了補償一個0.1-0.3%的不完備的伸展速率和一個1-2%的推進率,一個詳細的物理模型被提出來。如果對一個給定的read,檢測出頻繁的模糊的強度水平,這個read會被當做低質量的read給過濾掉。這允許排除包含多個模板的小孔。最後,Phred似的質量分數【20】被指派給每個被判定的base。質量分數與對數概率相一致,base was not an overcall,也就是說預測的均聚物長度不會太長。


在Pyrobayes方法中,Quinlan等人【26】提議通過改變一個在均聚物長度上的優先的經驗主義和使用一個基於信號強度的經驗測量的分類器來改善前面提到的過程。這挑戰了進行簡單線性的正確性。就像在他們文章中所描繪的那樣,使用這個更加經驗主義的方法不會較少總的錯誤率。然而,Pyrobayes在置換錯誤率和Phred質量分數的精度方面明顯的比原始的base-caller要好。因此,他們證明在單核苷酸多態(SNP)預測的環境中Pyrobayes更勝一籌。


討論和展望

過去幾年內的新一代測序平臺的到來導致了最近base-calling軟件的爆發。我們已經評論了兩個主要的平臺Illumina和Roche454下的base-calling方法,這兩個平臺大部分的努力集中地方向在前面已經描述過。


各種各樣的base-caller的不同之處是在用於判斷base和妨礙他們報道不確定性的統計方法論。此時,哪種方法會最終實現最高的精確度還尚待分曉:一個機械模型像BayesCall或者Seraphim,一個完全經驗主義方法比如Ibis,或者一些中間解模型像Alta-Cyclic。目前,兩個最精確地base-callers,Ibis和naiveBayesCall,使用的是完全不同的方法論的方法並且都實現了高精度。就像我們在前面建議的那樣,避免監督式學習的模型可能有潛在的優勢,那就是在從頭測序的情況下增加了產量,因爲不需要爲了培養而對一個已知的參考序列進行重測序。此外,機械模型的參數有一個清晰的解釋並且可以對根本的技術中的干擾的來源給出有價值的思考(insight)。舉個例子,對pre-phasing 和phasing比率的估計可以從【19】獲得。這個信息可以推動在未來技術的改進,另一方面,Ibis使用的SVM是有益的,當調整程序來適應Illumina平臺的將來的版本或者一個完全不同的平臺時,因爲關於偏差的類型只做出了很少的假設。相比被機械模型製造出來的許多的假設,這些假設可能對不同的技術更有效。


當報告被判定的base的不確定性時,大多數base-calling的實現都依賴於Phred score,只有Rolexa使用IUPAC encoding。原則上,報告四個bases的概率會給下游分析提供由base-calling算法推導出來的完整的信息。總結這個信息是使用Phred或是IUPAC codes不能從隨後的分析工具中更好的被獨立的決定。然而,與IUPAC codes 的對立的Phred scores,使用範圍更廣並且存在大量的工具可以控制(handle)他們【21】。


這些方法在計算資源需求上也是大大的不同,從最快的Bustard,到需求超過幾個數量級的計算資源的Alta-Cyclic和BayesCall。另一方面,Ibis只需要三倍於Bustard的資源而在精確度方面非常有競爭力。既然這樣,增加的精確度證明了增加在計算上的花費是正確的。


預期在未來的下一代測序技術會繼續得到迅速的提升。通過提高精確度,讀長和質量分數,base-callers有可能會減少費用,增加產量並且使下游的分析更加簡單。不僅爲Illumina和Roche 454,也爲其他的新一代測序平臺設計和更新接近最佳的base-callers將繼續成爲一個重要的研究工作。一個最先爲了SOLiD系統設計的第三方base-caller【27】研製出來了,同樣可用於Illumina和Roche454,報道稱有顯著地提高。在這個領域中更深的研究有助於縫合在測序數據的生成和分析之間所需要的時間的缺口【28】。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章