Linux菜鳥,遇到命令就查,不懂就問,挺好的。
最近要在gtf中檢索基因,已知基因名稱和位置,兩種方法,反正都能得到結果,不知道哪種方法好用
1、先cat再grep
cat *.gtf|grep "ENSG00000121957"|grep "108896963"
2、直接grep
grep ENSG00000121957 *.gtf|grep "108896963"
3、如果是在多個文件夾搜索關鍵字,顯示文件位置,可以
grep '字符串' *_文件夾 -Rn
$grep -B 2 'parttern' inputfile //打印匹配行的前5行
好的,得到我要的結果了
chr1 HAVANA exon 108896864 108896963 . + . transcript_id "ENST00000446797.1"; gene_id "ENSG00000121957.14"; gene_name "GPSM2";
chr1 HAVANA CDS 108896864 108896963 . + 1 transcript_id "ENST00000446797.1"; gene_id "ENSG00000121957.14"; gene_name "GPSM2";
下一步,還是得去查一下序列呀,個人不太喜歡NCBI,UCSC genome browser更好用一些
https://genome-asia.ucsc.edu/cgi-bin/hgGateway?redirect=manual&source=genome.ucsc.edu
直接錄入
chr1:108896864-108896963,然後在最頭頭的view上,點開dna,MAC好難截圖呀,回到Windows再上圖
從USCS常用的兩個功能,blat和genome browser
有時候需要把blat結果在一些序列裏查詢,我覺得這個python子串匹配的代碼超級好用呀
line="TGCTACTCTGGAGGCTGAGGCAGGAGGATTGCTTGAGCCCAGGAGTTTGAGACTTGCCTGGGCAATATAGTGAGACTCCCATCTCTGTAACGAACATGAAAAGAATGGTCTTCTCTCATGCTTATCAAATTTTCCTCCATCGAGTCATAT"
patt="TGCTACTCTGGAGGCTGAGGCAGGAGGATTGCTTGAGCCCAGGAGTTTGA"
pattern = re.compile(patt)
result = pattern.findall(line)
print result