「Bionano系列」下機數據的BNX文件到底說了什麼

最近我拿到了一批Bionano數據,用關鍵字 “Bionano+組裝” 進行檢索時,並沒有發現任何的教程,所以這應是中文網絡世界裏第一個Bionano數據分析系列

Bionano技術簡單來說,就是給分子加上熒光標記,然後拍照,所以最原始的下機數據就是TIFF格式,但是用戶拿到的一般都是經AutoDetect/IrysView 轉換過的BNX格式。這篇文章主要就是講講BNX格式的具體含義。

根據Bionano的30038號文件,即"BNX File Format Specification Sheet"的定義,

The Bionano Genomics® BNX file is a raw data view of molecule and label information and quality scores per channel identified during a run. BNX v1.3 supports one or two label channels (colors).

BNX記錄的是在泳道中每個單分子原始信息,包括分子中的標記信息和每個泳道的質量得分

單分子熒光標記

類似於SAM/VCF這類格式,BNX也分爲兩個部分,元信息行和數據行。

元信息行中比較容易理解的行是下面幾個,基本不需要解釋

容易理解的信息行

後面的"#rh" 和" Run Data" 會稍微複雜一些。但是"rh"其實是Required Headers的縮寫,記錄的是"Run Data"中一定要有的列, 而"Run Data"每一行表示的是不同的隊列(corhart)或者稱之爲泳道。我會着重看以下幾個記錄

  • SNRFilterType: 信噪比的過濾類型,如果有這一列,就表示你後續就不用做SNR Filter
  • MinMoleculeLength: 所允許的最短的分子長度
  • MinLabelSNR:所允許的最低標記的SNR

下面的"0h",“1h”,“Qh”, “QX11”,“QX12” 需要結合數據行才能理解。首先要明確一點,對於單酶系統(Label Channels: 1),每個分子都會對應4個數據行。

對應關係

“0h” 記錄的是每個分子中簡要信息,例如分子的長度(length), 信噪比(SNR), 標記的數目(NumberofLabels), 其中"0f"則是告訴程序它將要解析的數據格式是什麼。

“1h” 記錄的是每個標記的位置信息,對應"0h"中的NumberofLabels。標記間的相對位置信息就是後續進行組裝和比對的基礎,如下圖所示。

光學圖譜組裝

“Qh” 中的QualityScoreID對應"QX11",“QX12”,而QualityScores[N]表示會記錄N個質量分數。"QX11"記錄的每個標籤的信噪比(SNR), "QX12"則是記錄信號強度,這兩者正相關。 同樣"Qf"則是告訴程序它將要解析的數據格式是什麼。

信噪比和信號強度的關係

介紹完數據格式後,你會有一個問題,如何評判數據的好壞呢?以及如何進行數據質量控制?

我們可以根據以下質標評估數據的好壞:

  • 標記密度(Label Density): 一般NRLS爲 8-15 Labels/100Kb, DLS 爲 10-25 Labels/100Kb
  • 分子量 N50:評估總體分子的長度
  • 假陽性(FP): 原本沒有標記的地方識別出信號
  • 假陰性(FN): 原本應該有標記的地方卻沒有信號
  • 比對率(Mapping Rate): 有多少分子能夠回貼到基因組上。

那麼這些評估信息如何獲取呢?請期待後續的更新

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章