原创 使用Snakemake搭建分析流程

## 目前已有的框架 A review of bioinformatics pipeline framework 的作者對已有的工具進行很好的分類 作者的看法: implicit,也就是Make rule語法更適合用於整合不同執行

原创 如何用Python給自己做一個年終總結

轉眼間,2018年即將過去,各種APP開始推送我在2018年做了那些時間,花了多少時間在這些APP上面。當然我們的生活還得掌握在自己的手上,我需要給我這一年來的寫作做一個總結。 我的文章基本都在簡書上,從2016年到現在將近寫了300

原创 「Bionano系列」下機數據的BNX文件到底說了什麼

最近我拿到了一批Bionano數據,用關鍵字 “Bionano+組裝” 進行檢索時,並沒有發現任何的教程,所以這應是中文網絡世界裏第一個Bionano數據分析系列 Bionano技術簡單來說,就是給分子加上熒光標記,然後拍照,所以

原创 「Bionano系列」下機原始數據過濾和評估

從這部分開始,就開始涉及一些軟件的操作和數據分析,因此在進入正文之前,我們需要準備好環境。 環境準備 第一步:從 https://bionanogenomics.com/library/datasets/下載人類測試數據集,以及對應的

原创 三代轉錄組系列:使用Cogent重建基因組編碼區

儘管目前已測序的物種已經很多了,但是對於一些動輒幾個G的複雜基因組,還沒有某個課題組有那麼大的經費去測序,所以仍舊缺少高質量的完整基因組,那麼這個時候一個高質量的轉錄組還是能夠湊合用的。 二代測序的組裝結果只能是差強人意,最好的結果就

原创 使用新版Falcon進行三代測序基因組組裝

這裏的新版指的是PacBio公司在2018年9月發佈pb-assembly, 而這篇文章是在2018年9月30日發的。 今年早些時候在參加三代培訓時,聽說PacBio會在今年對Falcon進行一些改變。前幾天我在讀 readthe

原创 PCA作圖裏面的箭頭是幹嘛用的?

作圖的目的是希望在圖裏面發現問題或者解釋問題,當然更本質一點就是你想解決什麼問題? 前幾天做了一個PCA的圖,圖是畫出來了,但是問題有很多,比如說主成分是是啥意思,圖裏面的箭頭有什麼含義?爲了不做無意義的重複,所以寫一篇文章嘗試做

原创 這或許是我寫的最全的BLAST教程

Basic local alignment search tool (BLAST) 包括:blastn, blastp, blastx, tblastn, tblastx等. 使用conda安裝即可。 conda install -c

原创 使用minimap+miniasm對nanopore進行基因組組裝

我們用來練手的文章發表在 Nature Communication ,”High contiguity Arabidopsis thaliana genome assembly with a single nanopore flow

原创 如何對基因組序列進行註釋

基因組組裝完成後,或者是完成了草圖,就不可避免遇到一個問題,需要對基因組序列進行註釋。註釋之前首先得構建基因模型,有三種策略: 從頭註釋(de novo prediction):通過已有的概率模型來預測基因結構,在預測剪切位點和UT

原创 純二代測序從頭組裝基因組

基因組組裝 基因組組裝一般分爲三個層次,contig, scaffold和chromosomes. contig表示從大規模測序得到的短讀(reads)中找到的一致性序列。組裝的第一步就是從短片段(pair-end)文庫中組裝出con

原创 使用MAKER進行基因註釋(高級篇之SNAP模型訓練)

訓練 ab initio 基因預測工具(以SNAP爲例) 對於一個新的物種而言,你大概率是沒有一個高質量的基因模型去進行基因預測。但是我們可以利用EST序列(少部分物種估計有)、二代測序數據、同源物種蛋白序列,先直接用Maker做基

原创 如何做基因組survey

基因組survey 在組裝基因組之前一定要先對要組裝的物種有一個大致的瞭解,判斷其複雜程度, 標準如下 簡單基因組: 雜合度低於0.5%, GC含量在35%~65%, 重複序列低於50% 二倍體普通基因組: 雜合度在0.5%~1.2

原创 如何使用fastq-dump轉換SRA格式

如何使用fastq-dump轉換SRA格式 做生信的基本上都跟NCBI-SRA打過交道,尤其是fastq-dump大家肯定不陌生.NCBI的fastq-dump軟件一直被大家歸爲目前網上文檔做的最差的軟件之一”,而我用默認參數到現在基