WGS完整流程介紹(原始數據質控、數據預處理、變異檢測、數據註釋)

在這裏插入圖片描述
一、原始數據質控
1.原始測序數據(也是reads)
      從測序儀中直接取下來的數據,它包括了所有的鹼基,無論是測序質量低的,還有可能包含測錯的,可能還會包含實驗誤差。
2.數據質控
     把原始測序數據 (raw data)據輸入到質量控制軟件中(將低質量的、沒有測出來、測錯的刪掉),轉換成QC/過濾低質量read數據(clean data)。
     clean data可以被認爲是沒有測序錯誤的數據。
注:假設:
     由於我們的原始數據就是reads(10000條),經過原始數據指控後,會變成clean data(8500條)。
二、數據預處理
注:數據預處理實際上就是數據比對。
1.數據比對
     假設每一個read是150個鹼基,但是人類的參考基因組有3億個鹼基,我想知道我測這一段是人體基因組的哪個染色體的哪個位置上的一小段,將測到的這一小段貼到人類參考基因組上給它一個標記,就相當於給它一個位置。這就叫做比對。
     比對結束後得到的就是bam文件。 比對完後,每一個reads都有一個位置寫到了這個文件中。
2.排序
     按照reads的比對位置進行排序。比如說第一條reads比對到了1號染色體上的100個位置,第二條reads比對到了1號染色體上的1個位置,則需要將這兩條reads的位置進行互換。我們需要排一下序,按照1-22號染色體加XY的順序,同一條染色體上按照位置從小到大來排序。 排序後,在bam存儲上方便,所佔用的空間較小,對於突變識別也很重要。
3.去重複
     首先我們來理解一下,就是首尾一樣,長度一樣,鹼基也是一樣的。可以理解成雙胞胎。
     這種重複可能是實驗重複造成的。
     我們去重複是爲了達到這樣一個效果:在1號染色體的第一個位置有一條reads,在1號染色體的第二個位置有一條reads。
4.局部重比對
     我們先來說局部,指的是存在插入刪除的位置。局部重比對指的是在存在插入刪除的位置在進行一些比對,主要是爲了比對的準確性。
     常見的插入刪除的位置上,很多人,比如在3號染色體第10000萬個位置會出現刪除這個事件,但是卻沒有導致疾病。但如果這些刪除不進行處理的話,可能會導致在這個位置周圍的比對都不太準確。
5.鹼基質量重校正(BQSR)
     鹼基質量重校正(BQSR),是一個機器學習的方法,就是將鹼基的質量(指的是測序質量),比如說在1號染色體某一位置可能會有多條reads來覆蓋,由於reads有150個bp,假設比對到了位置1,從1-150位置均會覆蓋。比如說有一個位置有很多的reads覆蓋到了這個位置,在同一個位置上出現了兩種鹼基(A和T):如果我們發現T的質量是非常非常低的,A的質量是非常非常高的,可以將T校正一下;如果我們發現A和T的質量差不多且都特別高時,則無需校正,這證明時A到T發生了突變。
注:
     局部重比對和鹼基質量重校正都是使用GATK的軟件。
     數據預處理中的每一步的輸出均是BAM格式。
三、變異檢測-
1.變異檢測軟件
     將BAM文件輸入到變異檢測軟件(VarScan、GATK、Mutect2等)中,會得到VCF格式的文件。
2.VCF文件的格式
     一般爲10幾行,第1列:染色體號;第2列:染色體位置;第3列:是一個ID,是找到的變異位置的ID,可選的;後面參考基因組的上的鹼基、突變後的鹼基、基因型、深度、鹼基頻率。
3.變異檢測的目的
     是爲了從bam得到突變。因爲bam是每一個位置上的鹼基均有,但並不是每一個位點均是突變,VCF則是將突變的位點顯現出來。bam文件可能會有10個G,但一般的VCF文件通常不會超過一個G,如果VCF文件超過1個G時,則證明測序存在錯誤,測的太差了。
4.藍色箭頭所代表的流程
     變異檢測所輸出的每一個樣本的VCF,將它們聯合起來,所以叫聯合基因型。假如說我們這個胃癌的隊列有100個樣本,就會出現100個VCF,組成一個VCF,merge成爲gVCF.再通過聯合基因型,這個結果可以和單獨的100個樣本的VCF在做一個變異質控和過濾。
注:
     在我們的實驗室中,VQSR和多樣本的那一部分均不會做。但是我們會通過自己設定的一些指標進行過濾,比如深度上低於20時則不要;鹼基頻率頻率低於0.1時不要。
四、變異註釋
     我們剛剛拿到的變異只有位置,有參考基因組的鹼基、突變成的鹼基。而我們找基因突變的目的不是爲了找看基因突變,而是爲了看這個基因在蛋白的表達上有什麼影響使人體患病。就是說要將其轉換爲生物體上的數據。比如說這個基因表達了那種蛋白,由於該基因突變導致 此蛋白失活,使得該蛋白沒有功能了。
在這裏插入圖片描述
Varscan Somatic Variant Calling Pipeline
使用tumor bam和normal bam,找腫瘤和正常細胞有什麼不同,正常的細胞是對照,將bam文件轉換成Pileup,然後將其輸入軟件Varscan會將其轉換爲兩種VCF:單鹼基突變(SNV)、短插入和刪除(INDEL)。在經過突變的過濾,高可信度SNV、低可信度的SNV、種系突變、SNV LOH(SNV雜合性丟失)。
MuTect Somatic Variant Calling Pipeline
Panel of Normals(PON):GATK組織爲了規避測序上的錯誤,包括一些種系的突變,PON需要自己來建立,他建立的條件非常苛刻(必須使用正常健康人年輕人的血提取的DNA來進行測序,另外要求測序技術、平臺都要這一批的tumor和normal測序的環境完全一樣)。所以PON這步在我們實驗室也不做。PON只是一個可選參數,即使沒有MuTect2仍然可以使用。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章