使用FACETS對ngs數據找CNV

這個工具,FACETS (Fraction and Allele-Specific Copy Number Estimates from Tumor Sequencing), 的文章發表不到兩年,Nucleic Acids Res. 2016 就收穫了近100個應用,有可能因爲是MSKCC出品:https://github.com/mskcc/facets 可以對配對的腫瘤樣品的WGS,WES,捕獲測序數據找CNV,非常好用。

腫瘤樣本拷貝數變異 (CNV,copy number variation),即 somatic CNV 是最主要的體細胞突變之一。

值得一提的是對腫瘤外顯子來分析CNV, 我測試過很多工具了:

WES的CNV探究-conifer軟件使用

單個樣本NGS數據如何做拷貝數變異分析呢

腫瘤配對樣本用varscan 做cnv分析

使用cnvkit來對大批量wes樣本找cnv

GATK4的CNV流程-hg38

使用sequenza軟件判定腫瘤純度

正常細胞的基因組是二倍體,而在腫瘤細胞中基因組某些區域拷貝數會發生擴增 (amplification) 或缺失 (deletion) 從而改變基因組原有的狀態,且大小約在50bp-1Mb之間。理想的 CNV 檢測方法應該是能又快又準的定量基因組範圍內拷貝數變化,同時能全面定位 CNV 發生的斷點及其位置。

使用方法

比較詭異的是這個R包不在bioconductor倉庫,而是在GitHub上面,而且比較大,在國內安裝可能是會失敗,安裝代碼如下:

if(F){
  devtools::install_github("mskcc/facets", build_vignettes = TRUE)
  devtools::install_github("mskcc/pctGCdata")
}

其中我踩過的一個坑是:https://mp.weixin.qq.com/s/h0NuxMOb3MY0ADGKCROejg

成功安裝R包後,只需要輸入文件即可使用,示例輸入文件如下:

> head(rcmat)
  Chromosome Position N.DP N.RD T.DP T.RD
1          1    13813      1      0      4      3
2          1    13838      2      0      3      2
3          1    14542      4      0     13      3
4          1    14574      7      0     21      4
5          1    14599      9      0     28      4
6          1    14604      9      0     31      4

就是6列數據庫,分別是樣品走gvcf文件所能找到的所有變異位點的染色體,起始座標,病人配對樣品的正常對照的總測序深度,allele的深度,以及病人的腫瘤樣品的總測序深度,allele的深度。

至於這個輸入文件如何製作,可以參考:https://mp.weixin.qq.com/s/RPuuhkC16nFEoXWinVSnUQ (在R裏面玩轉VCF教程)

真正運行CNV步驟代碼如下:

## fit segmentation tree
xx = preProcSample(rcmat)
## estimate allele specific copy numbers
oo=procSample(xx,cval=150)
## EM fit version 1
fit=emcncf(oo)
tmp=fit$cncf
head(fit$cncf)
fit$purity
fit$ploidy
plotSample(x=oo,emfit=fit)

其中preProcSample函數會對腫瘤配對樣品的基因型矩陣進行一些預處理,包括測序深度的控制,等位基因頻率的控制,兩個很重要的值定義是:

  • logR is dened by the log-ratio of total read depth in the tumor versus that in the normal
  • logOR is dened by the log-odds ratio of the variant allele count in the tumor versus in the normal.

procSample函數裏面的CBS算法來根據這兩個值來計算拷貝數變化區域,其中pre-determined critical value (cval)這個參數可以控制敏感性,該值越小,那麼找到的CNV區域就越多。

最後使用emcncf函數來進行Call allele-specic copy number and associated cellular fraction, estimate tumor purity and ploidy.算法,得到的結果裏面

  • cf, tcn, lcn are the initial estimates of cellular fraction, total and minor copy number estimates
  • cf.em, tcn.em, lcn.em are the estimates by the mixture model optimized using the EM-algorithm.

結果圖分成3部分需要仔細研讀和理解:

最上面的和中間的圖就是爲了展示所有位點的logR和logOR值在染色體的發佈啦,最下面的圖纔是最後CBS算法

顏色區分拷貝數,但是作者的配色很詭異,不是主流:

  • Dark blue indicates high cf.
  • Light blue indicates low cf.
  • Beige indicates a normal segment (total=2,minor=1).

傳統檢測 CNV 的方法有

  • Fluorescence In Situ Hybridization (FISH)
  • NanoString’s digital detection technology
  • array comparative genomic hybridization (array CGH)
  • Single Nucleotide Polymorphism (SNP) array

這些方法受到自身的侷限性,如雜交背景噪音,有限的基因組覆蓋度,較低的檢測分辨率等,因此很難用於檢測新型和低頻的CNV。隨着測序技術的發展,二代測序已成爲基因分型和分析 CNV 最流行的手段,不僅可以完美彌補了傳統方法的侷限性,又可以提高通量、降低成本及縮短週期。綜合考慮到二代測序的優勢,研究者們開發了一系列基於不同算法適用於不同測序策略的 somatic CNV 分析軟件!

基於NGS數據的檢測CNV

一般來說有三種主要的檢測CNV的算法:

  • 1) read count;
  • 2) paired-end;
  • 3) assembly

隨着測序成本的降低以及測序深度的增加,read count 成爲最主要的方法。

Read count 方法原理是利用一個非重複滑動的窗口去統計覆蓋到與該窗口重疊的基因組區域內 reads 數量,從而推斷髮生 CNV 的位置。Read count 分析方法包括兩個步驟:預處理 (preprocessing) 和分段處理 (segmentation)。

預處理步驟可以對樣本比對後的 BAM / SAM / Pileup 等文件進行均一化處理,也可以使用 de-noising 的算法去除 WES 數據中存在的偏好性和背景噪音;分段處理步驟會利用一些統計模型對具有相似 read count 的區域合併去預估CNV的大小,常見的統計模型有circular binary segmentation (CBS), hidden Markovmodel (HMM) 等。

NGS數據的CNV檢測的挑戰

雖然測序技術逐步在提高,檢測 CNV 的軟件也一直在更新,但是腫瘤樣本中 somatic CNV 的檢測依然存在一些挑戰。基本挑戰包括:測序數據質量和測序策略選擇。

  • 首先,基於read count方法檢測CNV,最主要的是尋找基因組某一區段內的reads數量與CNV的關係。然而這種關係會受到樣本GC偏好性、數據比對偏好性、實驗操作背景噪音以及測序偏好性的影響。
  • 其次,在選擇WES或TRS測序時,探針的捕獲偏好性以及reads在不同外顯子區的分佈偏好性會影響到CNV檢測時的數據統計,會成爲CNV檢測算法的背景噪音。

最重要的挑戰是腫瘤樣本本身的複雜性,包括腫瘤純度、倍性以及克隆結構異質性。CNV 在腫瘤樣本基因組上具有廣泛性以及多樣性,因此 germline CNV 與 somatic CNV 不同之處在於,somatic CNV 可以發生在基因組任何區域且突變頻率低。

其次,腫瘤樣本中污染正常細胞時,會降低 read count 和 read depth 值,使 BAFs 值脫離理論值,影響分段步驟中 CNV 數量估計;基因組非整倍性情況的存在會嚴重影響腫瘤樣本中 BAF 的狀態,以及 read count 和 read depth 的基線。

最後,腫瘤樣本中克隆結構存在異質性,導致一些低頻亞克隆結構檢出困難,雖然提高測序深度可以幫助檢測低頻亞克隆,但是想要精準檢測 somatic CNV 還是需要綜合考慮樣本的複雜程度。

參考自:http://www.biotrainee.com/thread-2447-1-1.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章