原创 使用MAKER進行註釋: 輸出基因模型的人工檢查

使用MAKER運行結束後可以使用Jbrowse對基因模型進行可視化。由於MAKER和JBrowse同屬於GMOD項目,因此能夠很方便的輸出結果轉成GMOD所需形式。如果需要對模型進行手工編輯,那麼Apollo可以直接使用JBrowse的數

原创 使用MAKER進行註釋: 訓練SNAP基因模型

準備階段 訓練SNAP模型,需要準備三個文件,分別是參考基因組序列,組裝的轉錄本序列和同源蛋白序列。 對於參考基因組序列,我們要保證N50需要超過預期基因長度的中位數,否則註釋效果不好。不過目前的基因組在三代測序的加持下,基本上都不是問題

原创 使用MAKER進行註釋: 理解的MAKER的並行化

MAKER並行分爲兩種,一種基於MPI,運行方式爲mpiexec -n 線程數 maker, 一種是在同一個項目中運行多次maker。前者需要在安裝MAKER時進行設置,後者相當於你手動按照染色體數目進行拆分,然後分開運行MAKER。本片

原创 使用MAKER進行註釋: 學習MAKER的配置參數

MAKER配置文件詳解 本文翻譯自http://weatherby.genetics.utah.edu/MAKER/wiki/index.php/The_MAKER_control_files_explained MAKER會生成三個配置

原创 使用BRAKER2進行基因組註釋(v 2.1.5版)

BRAKER2是一個基因組註釋流程,能夠組合GeneMark,AUGUSTUS和轉錄組數據。 在使用軟件之前,有幾點需要注意下 儘量提供高質量的基因組。目前隨着三代測序價格下降,這一點問題不大。 基因組命名應該簡單,最好就是">cont

原创 Python版的xpclr的艱辛debug之旅

這個軟件的安裝非常波折,根據安裝官方的教程,我在Python3.7.0中進行安裝 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scikit-allel git clone

原创 使用nextpolish對三代組裝進行polish(v1.2.2版)

NextPolish是武漢未來組開發的一個三代基因組polish工具(另外一個常用軟件是Pilon)。NextPolish可以使用二代短讀序列或者三代序列或者兩者結合去糾正三代長讀長序列在組裝時導致的鹼基錯誤(SNV/Indel)。由於它

原创 Singularity和MPI應用

MPI(Message Passing Interface)廣泛應用於高性能服務器中,可用於單系統多節點或者多個計算平臺間通訊,目前主流的兩個開源軟件分別是OpenMPI和MPICH。Singularity同時支持這兩個開源工具,本篇教程

原创 「生信練習題」調整GFF文件中的座標位置

已知,我們通過seqkit faidx ref.fa chr8:25234310-25266151 > target.fa提取基因組上的一個片段序列,接着我們用AUGUSTUS對這段序列進行預測 augustus --species=ar

原创 註釋手工校正工具Apollo-數據導入篇

Apollo界面介紹 Apollo的界面(下圖)分爲兩個部分,分別是基因組編輯工作區(Genomic Editing Workspace)和信息和管理面板(Information and Administration Panel)

原创 深入解讀Khash.h之哈希表空間調整

調整空間 顯然初始化內存大小是無法記錄元素的,以及如果新增元素超過當前哈希表所能容納的大小,或者哈希表中大部分的元素都被刪除,不需要那麼多空間,我們都需要對哈希表的空間進行調整。因此在khash.h有62行代碼,即244-306,是負責哈

原创 深入解讀Khash.h之 key、value相關操作

key、value相關操作 當我們的鍵值對中的key=1001, 我們是不可能申請一個1001大小的數組用於存放key。否則,當我們要存放key=1和key=10001,我們就會浪費大量的內存空間。爲了根據key查詢對應的value,我們

原创 深入解讀Khash.h之結構初始化和flag操作

初始化、清空和刪除 khash使用kcalloc(等同於calloc)申請一個大小爲1的kh_##name##_t, 所有元素默認值都是0. SCOPE kh_##name##_t *kh_init_##name(void) {

原创 註釋手工校正工具Apollo的安裝筆記

Apollo安裝筆記 當我們通過一些流程化工具對一個基因組進行註釋之後,最終得到的註釋結果(通常是GFF文件)或多或少存在一些註釋錯誤,需要通過人工校正。 我們的目標是安裝一個能夠在自己服務器使用的Apollo用於人工註釋,以下的操作都需

原创 「生信Debug」[E::bcf_hdr_parse] Could not parse the header, sample line not found

從網上下載了一個VCF文件,打算使用bcftools view查看一下基本信息,結果遇到了如下的報錯 [E::bcf_hdr_parse] Could not parse the header, sample line not found