「Bionano系列」下機數據的BNX文件到底說了什麼

原創

hop top

2018-12-25 23:39

最近我拿到了一批Bionano數據，用關鍵字 “Bionano+組裝” 進行檢索時，並沒有發現任何的教程，所以這應是中文網絡世界裏第一個Bionano數據分析系列

Bionano技術簡單來說，就是給分子加上熒光標記，然後拍照，所以最原始的下機數據就是TIFF格式，但是用戶拿到的一般都是經AutoDetect/IrysView 轉換過的BNX格式。這篇文章主要就是講講BNX格式的具體含義。

根據Bionano的30038號文件，即"BNX File Format Specification Sheet"的定義，

The Bionano Genomics® BNX file is a raw data view of molecule and label information and quality scores per channel identified during a run. BNX v1.3 supports one or two label channels (colors).

BNX記錄的是在泳道中每個單分子原始信息，包括分子中的標記信息和每個泳道的質量得分

類似於SAM/VCF這類格式，BNX也分爲兩個部分，元信息行和數據行。

元信息行中比較容易理解的行是下面幾個，基本不需要解釋

後面的"#rh" 和" Run Data" 會稍微複雜一些。但是"rh"其實是Required Headers的縮寫，記錄的是"Run Data"中一定要有的列，而"Run Data"每一行表示的是不同的隊列(corhart)或者稱之爲泳道。我會着重看以下幾個記錄

SNRFilterType: 信噪比的過濾類型，如果有這一列，就表示你後續就不用做SNR Filter
MinMoleculeLength: 所允許的最短的分子長度
MinLabelSNR：所允許的最低標記的SNR

下面的"0h",“1h”,“Qh”, “QX11”,“QX12” 需要結合數據行才能理解。首先要明確一點，對於單酶系統(Label Channels: 1)，每個分子都會對應4個數據行。

“0h” 記錄的是每個分子中簡要信息，例如分子的長度(length), 信噪比(SNR), 標記的數目(NumberofLabels), 其中"0f"則是告訴程序它將要解析的數據格式是什麼。

“1h” 記錄的是每個標記的位置信息，對應"0h"中的NumberofLabels。標記間的相對位置信息就是後續進行組裝和比對的基礎，如下圖所示。

“Qh” 中的QualityScoreID對應"QX11",“QX12”，而QualityScores[N]表示會記錄N個質量分數。"QX11"記錄的每個標籤的信噪比(SNR), "QX12"則是記錄信號強度，這兩者正相關。同樣"Qf"則是告訴程序它將要解析的數據格式是什麼。

介紹完數據格式後，你會有一個問題，如何評判數據的好壞呢？以及如何進行數據質量控制？

我們可以根據以下質標評估數據的好壞：

標記密度(Label Density): 一般NRLS爲 8-15 Labels/100Kb, DLS 爲 10-25 Labels/100Kb
分子量 N50：評估總體分子的長度
假陽性(FP): 原本沒有標記的地方識別出信號
假陰性(FN): 原本應該有標記的地方卻沒有信號
比對率(Mapping Rate): 有多少分子能夠回貼到基因組上。

那麼這些評估信息如何獲取呢？請期待後續的更新

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

「Bionano系列」下機數據的BNX文件到底說了什麼

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

使用Snakemake搭建分析流程

如何用Python給自己做一個年終總結

「Bionano系列」下機數據的BNX文件到底說了什麼

「Bionano系列」下機原始數據過濾和評估

三代轉錄組系列：使用Cogent重建基因組編碼區

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結