Linux下檢索基因數據(含UCSC查詢)

Linux菜鳥,遇到命令就查,不懂就問,挺好的。

最近要在gtf中檢索基因,已知基因名稱和位置,兩種方法,反正都能得到結果,不知道哪種方法好用

1、先cat再grep

cat *.gtf|grep "ENSG00000121957"|grep "108896963"

2、直接grep

grep ENSG00000121957 *.gtf|grep "108896963"

3、如果是在多個文件夾搜索關鍵字,顯示文件位置,可以

grep '字符串'  *_文件夾 -Rn

$grep -B 2 'parttern' inputfile //打印匹配行的前5行

好的,得到我要的結果了

chr1 HAVANA exon 108896864 108896963 . + . transcript_id "ENST00000446797.1"; gene_id "ENSG00000121957.14"; gene_name "GPSM2";

chr1 HAVANA CDS 108896864 108896963 . + 1 transcript_id "ENST00000446797.1"; gene_id "ENSG00000121957.14"; gene_name "GPSM2";

下一步,還是得去查一下序列呀,個人不太喜歡NCBI,UCSC genome browser更好用一些

https://genome-asia.ucsc.edu/cgi-bin/hgGateway?redirect=manual&source=genome.ucsc.edu

直接錄入

chr1:108896864-108896963,然後在最頭頭的view上,點開dna,MAC好難截圖呀,回到Windows再上圖

從USCS常用的兩個功能,blat和genome browser

有時候需要把blat結果在一些序列裏查詢,我覺得這個python子串匹配的代碼超級好用呀

line="TGCTACTCTGGAGGCTGAGGCAGGAGGATTGCTTGAGCCCAGGAGTTTGAGACTTGCCTGGGCAATATAGTGAGACTCCCATCTCTGTAACGAACATGAAAAGAATGGTCTTCTCTCATGCTTATCAAATTTTCCTCCATCGAGTCATAT"
patt="TGCTACTCTGGAGGCTGAGGCAGGAGGATTGCTTGAGCCCAGGAGTTTGA"
pattern = re.compile(patt)
result = pattern.findall(line)
print result

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章