最近我拿到了一批Bionano數據,用關鍵字 “Bionano+組裝” 進行檢索時,並沒有發現任何的教程,所以這應是中文網絡世界裏第一個Bionano數據分析系列
Bionano技術簡單來說,就是給分子加上熒光標記,然後拍照,所以最原始的下機數據就是TIFF格式,但是用戶拿到的一般都是經AutoDetect/IrysView 轉換過的BNX格式。這篇文章主要就是講講BNX格式的具體含義。
根據Bionano的30038號文件,即"BNX File Format Specification Sheet"的定義,
The Bionano Genomics® BNX file is a raw data view of molecule and label information and quality scores per channel identified during a run. BNX v1.3 supports one or two label channels (colors).
BNX記錄的是在泳道中每個單分子原始信息,包括分子中的標記信息和每個泳道的質量得分
類似於SAM/VCF這類格式,BNX也分爲兩個部分,元信息行和數據行。
元信息行中比較容易理解的行是下面幾個,基本不需要解釋
後面的"#rh" 和" Run Data" 會稍微複雜一些。但是"rh"其實是Required Headers的縮寫,記錄的是"Run Data"中一定要有的列, 而"Run Data"每一行表示的是不同的隊列(corhart)或者稱之爲泳道。我會着重看以下幾個記錄
- SNRFilterType: 信噪比的過濾類型,如果有這一列,就表示你後續就不用做SNR Filter
- MinMoleculeLength: 所允許的最短的分子長度
- MinLabelSNR:所允許的最低標記的SNR
下面的"0h",“1h”,“Qh”, “QX11”,“QX12” 需要結合數據行才能理解。首先要明確一點,對於單酶系統(Label Channels: 1),每個分子都會對應4個數據行。
“0h” 記錄的是每個分子中簡要信息,例如分子的長度(length), 信噪比(SNR), 標記的數目(NumberofLabels), 其中"0f"則是告訴程序它將要解析的數據格式是什麼。
“1h” 記錄的是每個標記的位置信息,對應"0h"中的NumberofLabels。標記間的相對位置信息就是後續進行組裝和比對的基礎,如下圖所示。
“Qh” 中的QualityScoreID對應"QX11",“QX12”,而QualityScores[N]表示會記錄N個質量分數。"QX11"記錄的每個標籤的信噪比(SNR), "QX12"則是記錄信號強度,這兩者正相關。 同樣"Qf"則是告訴程序它將要解析的數據格式是什麼。
介紹完數據格式後,你會有一個問題,如何評判數據的好壞呢?以及如何進行數據質量控制?
我們可以根據以下質標評估數據的好壞:
- 標記密度(Label Density): 一般NRLS爲 8-15 Labels/100Kb, DLS 爲 10-25 Labels/100Kb
- 分子量 N50:評估總體分子的長度
- 假陽性(FP): 原本沒有標記的地方識別出信號
- 假陰性(FN): 原本應該有標記的地方卻沒有信號
- 比對率(Mapping Rate): 有多少分子能夠回貼到基因組上。
那麼這些評估信息如何獲取呢?請期待後續的更新