最新的腫瘤突變查找神器lancet試用體驗

衆所周知,腫瘤突變的尋找最好是需要配對的normal樣本測序數據來進行過濾病人的germline變異信息,最後得到somatic變異位點,但是部分病人的腫瘤部位取樣純度很低導致這個腫瘤突變確定過程很困難,已有的軟件表現最好的應該是broad出品的GATK4套件裏面的mutect2功能,但是不適合超低純度腫瘤,這個時候lancet就能大展身手。

名字跟大名鼎鼎的柳葉刀期刊撞車,軟件主頁在:https://github.com/nygenome/lancet

cd ~/biosoft/
git clone git://github.com/nygenome/lancet.git
cd lancet
make

這種依賴於gcc,make,CMake的軟件通常會報錯,而且每個機器都不一樣,當然,首先那些gcc,make,CMake是必須要安裝好,即使這樣,然後仍然還會報錯。

各種報錯

比如我的其中一臺機器是如下報錯:

           ^
/usr/bin/ld: cannot find -llzma
collect2: error: ld returned 1 exit status
make[1]: *** [lancet] Error 1
make[1]: Leaving directory `/home/jianmingzeng/biosoft/lancet/src'
cp: cannot stat `lancet': No such file or directory

起來似乎是有一個文件找不到路徑。。。但是在網上死活也搜不出來這個神祕的 llzma

最後的解決方案參考

  • https://www.cnblogs.com/zhming26/p/6164131.html
  • https://yq.aliyun.com/articles/245137
ls   /usr/lib |grep lib

的確是沒有這個llzma庫文件哦,如果有root權限,可以

sudo apt-get update
# You need liblzma.so . For Ubuntu :
sudo apt-get install liblzma-dev
apt-get install libbz2-dev
sudo apt install cmake 

如果沒有root權限,就麻煩了,參考:https://packages.debian.org/sid/liblzma5

wget http://http.debian.net/debian/pool/main/x/xz-utils/xz-utils_5.2.2.orig.tar.xz
xz -d xz-utils_5.2.2.orig.tar.xz
tar xvf xz-utils_5.2.2.orig.tar
cd xz-5.2.2/
./configure  --prefix=/home/jianmingzeng/biosoft/myBin/
make
make install

關於這個神祕的xz工具套裝:https://www.ibm.com/developerworks/cn/linux/l-lo-xzutils/index.html

另外一臺機器是如下報錯:

/usr/bin/x86_64-linux-gnu-ld: cannot find -lbamtools
collect2: error: ld returned 1 exit status
Makefile:17: recipe for target 'lancet' failed
make[1]: *** [lancet] Error 1
make[1]: Leaving directory '/home/jmzeng/biosoft/lancet/src'
cp: cannot stat 'lancet': No such file or directory

同樣的如果有root權限,可以

sudo apt-get update 
sudo apt-get install libbamtools-dev

重新再make一次即可,當然如果沒有root權限,就麻煩了,手打安裝庫文件我就不再贅述了哦。

總之,還是可以安裝成功的啦,如果實在不行,可以考慮我的docker系列

當然,docker也需要root權限啦。

運行經過

因爲運行時間不快,所以通常是按照染色體來分開並行,而且還可以設置多線程,代碼如下;

GENOME=/public/biosoft/GATK/resources/bundle/hg38/Homo_sapiens_assembly38.fasta
lancet=/home/jmzeng/biosoft/lancet/lancet
id='BOR001'
N_bam=test.N.bam
T_bam=test.T.bam 
for chr in  chr{1..22} chrX chrY chrM 
do 
echo $chr
$lancet --tumor $T_bam --normal $N_bam --ref $GENOME --reg $chr --num-threads 10 > ${id}_${chr}.vcf 
done 

接近1個小時一條染色體,所以怎麼着也得12個小時才能完成一個樣本的somatic mutation calling流程了,而且是10個線程的,這個速度可以說是奇慢無比!!!

檢查突變位點

因爲軟件默認是檢測所有位點,以VCF形式輸出可疑的somatic mutation位點,其中合格的會標記爲PASS,不合格的就列出原因,原因多種多樣,如下:

  1. LowCovNormal: low coverage in the normal
  2. HighCovNormal: high coverage in the normal
  3. LowCovTumor: low coverage in the tumor
  4. HighCovTumor: high coverage in the tumor
  5. LowVafTumor: low variant allele frequency in the tumor
  6. HighVafNormal: high variant allele frequency in the normal
  7. LowAltCntTumor: low alternative allele count in the tumor
  8. HighAltCntNormal: high alternative allele count in the normal
  9. LowFisherScore: low Fisher's exact test score for tumor-normal allele counts
  10. LowFisherSTR: low Fisher's exact test score for tumor-normal STR allele counts
  11. StrandBias: rejects variants where the vast majority of alternate alleles are seen in a single direction
  12. STR: microsatellite mutation

這些位點其實是可以挑出一些拿到IGV裏面檢查的。

因爲某些原因,我的IGV截圖不能秀出來,大家可以自行找到測試數據。

與Mutect2進行比較

因爲broad出品的GATK4套件裏面的mutect2功能的業界認可度最高,所以我們比較一下。

首先檢查幾個位點,比如在Mutect2裏面僅有的1號染色體的5個合格的somatic突變 :

chr1    88770592    .   C   CT  .   .   DP=46;ECNT=1;NLOD=3.01;N_ART_LOD=-8.382e-01;POP_AF=5.000e-08;P_CONTAM=0.00;P_GERMLINE=-4.691e+00;RPA=11,12;RU=T;STR;TLOD=6.32   GT:AD:AF:F1R2:F2R1:MBQ:MFRL:MMQ:MPOS:SA_MAP_AF:SA_POST_PROB 0/0:10,0:0.167:5,0:5,0:0:221,0:0:0  0/1:12,4:0.370:7,3:5,1:36:202,208:60:35:0.253,0.00,0.250:0.021,0.026,0.952

在lancet裏面認爲是:

chr1    88770592    .   C   CT  3.81931 LowFisherSTR;LowCovNormal;LowAltCntTumor;StrandBias SOMATIC;FETS=3.81931;TYPE=ins;LEN=1;KMERSIZE=27;SB=0.621479;MS=12T  GT:AD:SR:SA:DP  0/0:8,0:2,6:0,0:8   0/1:13,2:1,12:0,2:15

這樣就衝突了。

因爲某些原因,我的IGV截圖不能秀出來。

當然了,表現一致的位點也是有的,比如:

chr1    31426673    .   C   G   97.509  PASS    SOMATIC;FETS=97.509;TYPE=snv;LEN=1;KMERSIZE=13;SB=8.64182   GT:AD:SR:SA:DP  0/0:154,0:84,70:0,0:154 0/1:166,37:89,77:21,16:203

chr1    31426673    .   C   G   .   .   DP=282;ECNT=1;NLOD=34.78;N_ART_LOD=-2.072e+00;POP_AF=5.000e-08;P_CONTAM=0.00;P_GERMLINE=-4.935e+01;TLOD=89.87   GT:AD:AF:F1R2:F2R1:MBQ:MFRL:MMQ:MPOS:SA_MAP_AF:SA_POST_PROB 0/0:116,0:0.015:60,0:56,0:0:209,0:0:0   0/1:127,31:0.206:68,17:59,14:36:218,237:60:20:0.172,0.192,0.196:0.020,7.276e-03,0.972

我發現lancet對我的項目有一定的幫助,我可能是會仔細使用。

當然了,可能還會用conda來安裝。

彩蛋功能

加上 -A 參數開啓 DOT 格式的 DeBruijn 圖,看起來不是很好理解,應該是意義不大, 就不介紹了,感興趣的朋友可以自行耗費時間和精力去摸索哈。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章