衆所周知,腫瘤突變的尋找最好是需要配對的normal樣本測序數據來進行過濾病人的germline變異信息,最後得到somatic變異位點,但是部分病人的腫瘤部位取樣純度很低導致這個腫瘤突變確定過程很困難,已有的軟件表現最好的應該是broad出品的GATK4套件裏面的mutect2功能,但是不適合超低純度腫瘤,這個時候lancet就能大展身手。
名字跟大名鼎鼎的柳葉刀期刊撞車,軟件主頁在:https://github.com/nygenome/lancet
cd ~/biosoft/ git clone git://github.com/nygenome/lancet.git cd lancet make
這種依賴於gcc,make,CMake
的軟件通常會報錯,而且每個機器都不一樣,當然,首先那些gcc,make,CMake
是必須要安裝好,即使這樣,然後仍然還會報錯。
各種報錯
比如我的其中一臺機器是如下報錯:
^ /usr/bin/ld: cannot find -llzma collect2: error: ld returned 1 exit status make[1]: *** [lancet] Error 1 make[1]: Leaving directory `/home/jianmingzeng/biosoft/lancet/src' cp: cannot stat `lancet': No such file or directory
起來似乎是有一個文件找不到路徑。。。但是在網上死活也搜不出來這個神祕的 llzma
最後的解決方案參考
- https://www.cnblogs.com/zhming26/p/6164131.html
- https://yq.aliyun.com/articles/245137
ls /usr/lib |grep lib
的確是沒有這個llzma庫文件哦,如果有root權限,可以
sudo apt-get update # You need liblzma.so . For Ubuntu : sudo apt-get install liblzma-dev apt-get install libbz2-dev sudo apt install cmake
如果沒有root權限,就麻煩了,參考:https://packages.debian.org/sid/liblzma5
wget http://http.debian.net/debian/pool/main/x/xz-utils/xz-utils_5.2.2.orig.tar.xz xz -d xz-utils_5.2.2.orig.tar.xz tar xvf xz-utils_5.2.2.orig.tar cd xz-5.2.2/ ./configure --prefix=/home/jianmingzeng/biosoft/myBin/ make make install
關於這個神祕的xz工具套裝:https://www.ibm.com/developerworks/cn/linux/l-lo-xzutils/index.html
另外一臺機器是如下報錯:
/usr/bin/x86_64-linux-gnu-ld: cannot find -lbamtools collect2: error: ld returned 1 exit status Makefile:17: recipe for target 'lancet' failed make[1]: *** [lancet] Error 1 make[1]: Leaving directory '/home/jmzeng/biosoft/lancet/src' cp: cannot stat 'lancet': No such file or directory
同樣的如果有root權限,可以
sudo apt-get update sudo apt-get install libbamtools-dev
重新再make一次即可,當然如果沒有root權限,就麻煩了,手打安裝庫文件我就不再贅述了哦。
總之,還是可以安裝成功的啦,如果實在不行,可以考慮我的docker系列
- 我學會docker啦!希望你也可以學會
- 跟着jimmy學docker系列之第2講:一個軟件一個容器
- 跟着jimmy學docker系列之第3講:爲何不創建自己的docker容器呢?
- 跟着jimmy學docker系列之第4講:docker容器資源調度問題(MAC版本)
當然,docker也需要root權限啦。
運行經過
因爲運行時間不快,所以通常是按照染色體來分開並行,而且還可以設置多線程,代碼如下;
GENOME=/public/biosoft/GATK/resources/bundle/hg38/Homo_sapiens_assembly38.fasta lancet=/home/jmzeng/biosoft/lancet/lancet id='BOR001' N_bam=test.N.bam T_bam=test.T.bam for chr in chr{1..22} chrX chrY chrM do echo $chr $lancet --tumor $T_bam --normal $N_bam --ref $GENOME --reg $chr --num-threads 10 > ${id}_${chr}.vcf done
接近1個小時一條染色體,所以怎麼着也得12個小時才能完成一個樣本的somatic mutation calling流程了,而且是10個線程的,這個速度可以說是奇慢無比!!!
檢查突變位點
因爲軟件默認是檢測所有位點,以VCF形式輸出可疑的somatic mutation位點,其中合格的會標記爲PASS,不合格的就列出原因,原因多種多樣,如下:
- LowCovNormal: low coverage in the normal
- HighCovNormal: high coverage in the normal
- LowCovTumor: low coverage in the tumor
- HighCovTumor: high coverage in the tumor
- LowVafTumor: low variant allele frequency in the tumor
- HighVafNormal: high variant allele frequency in the normal
- LowAltCntTumor: low alternative allele count in the tumor
- HighAltCntNormal: high alternative allele count in the normal
- LowFisherScore: low Fisher's exact test score for tumor-normal allele counts
- LowFisherSTR: low Fisher's exact test score for tumor-normal STR allele counts
- StrandBias: rejects variants where the vast majority of alternate alleles are seen in a single direction
- STR: microsatellite mutation
這些位點其實是可以挑出一些拿到IGV裏面檢查的。
因爲某些原因,我的IGV截圖不能秀出來,大家可以自行找到測試數據。
與Mutect2進行比較
因爲broad出品的GATK4套件裏面的mutect2功能的業界認可度最高,所以我們比較一下。
首先檢查幾個位點,比如在Mutect2裏面僅有的1號染色體的5個合格的somatic突變 :
chr1 88770592 . C CT . . DP=46;ECNT=1;NLOD=3.01;N_ART_LOD=-8.382e-01;POP_AF=5.000e-08;P_CONTAM=0.00;P_GERMLINE=-4.691e+00;RPA=11,12;RU=T;STR;TLOD=6.32 GT:AD:AF:F1R2:F2R1:MBQ:MFRL:MMQ:MPOS:SA_MAP_AF:SA_POST_PROB 0/0:10,0:0.167:5,0:5,0:0:221,0:0:0 0/1:12,4:0.370:7,3:5,1:36:202,208:60:35:0.253,0.00,0.250:0.021,0.026,0.952
在lancet裏面認爲是:
chr1 88770592 . C CT 3.81931 LowFisherSTR;LowCovNormal;LowAltCntTumor;StrandBias SOMATIC;FETS=3.81931;TYPE=ins;LEN=1;KMERSIZE=27;SB=0.621479;MS=12T GT:AD:SR:SA:DP 0/0:8,0:2,6:0,0:8 0/1:13,2:1,12:0,2:15
這樣就衝突了。
因爲某些原因,我的IGV截圖不能秀出來。
當然了,表現一致的位點也是有的,比如:
chr1 31426673 . C G 97.509 PASS SOMATIC;FETS=97.509;TYPE=snv;LEN=1;KMERSIZE=13;SB=8.64182 GT:AD:SR:SA:DP 0/0:154,0:84,70:0,0:154 0/1:166,37:89,77:21,16:203 chr1 31426673 . C G . . DP=282;ECNT=1;NLOD=34.78;N_ART_LOD=-2.072e+00;POP_AF=5.000e-08;P_CONTAM=0.00;P_GERMLINE=-4.935e+01;TLOD=89.87 GT:AD:AF:F1R2:F2R1:MBQ:MFRL:MMQ:MPOS:SA_MAP_AF:SA_POST_PROB 0/0:116,0:0.015:60,0:56,0:0:209,0:0:0 0/1:127,31:0.206:68,17:59,14:36:218,237:60:20:0.172,0.192,0.196:0.020,7.276e-03,0.972
我發現lancet對我的項目有一定的幫助,我可能是會仔細使用。
當然了,可能還會用conda來安裝。
彩蛋功能
加上 -A
參數開啓 DOT 格式的 DeBruijn 圖,看起來不是很好理解,應該是意義不大, 就不介紹了,感興趣的朋友可以自行耗費時間和精力去摸索哈。