12月份第2周(總第46周)探索TNBC新的亞型分類

發表於:Clin Cancer Res. 2015 Apr 文章題目是:Comprehensive Genomic Analysis Identifies Novel Subtypes and Targets of Triple-negative Breast Cancer 主要是考慮到TNBC是異質性較大的一種乳腺癌,而且預後非常差,所以臨牀用藥指導急需對TNBC本身更加細緻的分類,研究團隊通過貝勒醫學院分兩次 收集了 198個TNBC病人, (discovery set: n=84; validation set: n=114) 比較穩定的把TNBC分成了4個亞型,而且還分析了7個公共數據集來驗證其結論。作者整理的4個亞型以及其可能的靶點:

1) LAR: androgen receptor and the cell surface mucin MUC1

2) MES: growth factor receptors (PDGF receptor A; c-Kit)

3) BLIS: an immune suppressing molecule (VTCN1)

4) BLIA: Stat signal transduction molecules and cytokines

其中BLIA組的預後最差,LAR的拷貝數變異比較獨特。

背景知識

腫瘤異質性一直是熱點,主要有3種研究策略

  • Deep-sequencing studies (Balko et al., 2012, Balko et al., 2014, Shah et al., 2012)
  • multi-region sequencinganalysis (Yates et al., 2015)
  • single-cell sequencing studies (Gao et al., 2016, Navin et al., 2011, Wang et al., 2014)

通過IHC(免疫組化)分型方法,乳腺癌被劃分爲激素受體(ER、PR)陽性組和陰性組,後者根據HER2表達情況進一步分爲HER2過表達乳腺癌和三陰性(ER、PR、HER2陰性)乳腺癌(TNBC)。

乳腺癌病人的異質性在治療領域是很大的問題,有文章根據表達量分6類,如下:

  • luminal A
  • luminal B
  • ERBB2-enriched
  • basal-like
  • claudin-low
  • normal-like

當然,PAM50的分類也是可以的。其中表達量得到的basal-like亞型和IHC得到的TNBC有重合,但並不等價。

而在2011就把TNBC分類過,如下:

  • androgen receptor positive
  • claudin-low-enriched mesenchymal
  • mesenchymal stem-like
  • immune response two cell cycle-disrupted basal subtypes
  • BL-1 and
  • BL-2

實驗設計

其中 Affymetrix U133 Plus 2.0 的表達芯片數據使用的是R語言裏面的affy包處理得到表達矩陣,數據上傳到了GEO裏面,

而 Illumina 610K and 660K 這樣的基因分型拷貝數芯片數據使用的是Illumina Genome Studio v2011 Genotyping這樣的官方工具,數據並沒有上傳。

數據處理

挑選 median absolute deviations (MADs) 最大的 1000個基因在所有樣本的表達信息矩陣,通過 Non-negative Matrix Factorization (NMF) 這個R包來進行聚類,發現可以比較穩定的聚爲 4 類。

還針對最明顯的兩個類別,即 basal-like versus the remaining intrinsic subtypes進行了差異表達分析,然後根據 log2(Fold Change) (“FC”) 和 Benjamini-Hochberg (BH) False Discovery Rate (FDR) 值來挑選 20個基因作爲分類器。

作者使用付費軟件 Ingenuity Systems’ Interactive Pathway Analysis (IPA) 進行基因集的功能分析。

針對基因分析及拷貝數芯片,作者使用 Allele-Specific Piecewise Constant Fitting (ASPCF) 和 Allele-Specific Copy Number (CN) Analysis of Tumors (ASCAT)算法得到拷貝數變異情況,然後使用 Genomic Identification of Significant Targets in Cancer (GISTIC) 2.0 軟件找 統計學顯著的拷貝數變異區域。

生存分析,包括 disease-free and overall survival (DFS and OS) 時間點。

主要分析結果解讀

首先是NMF得到的4類 :

只要有這個表達矩陣,挑取top1000的mad的基因,然後時候該R包調用NMF算法即可出結果。

84 (discovery set) and 114 TN breast tumors (validation set) both demonstrate 4 stable clusters by NMF of mRNA expression across the top 1000 genes (IQR summarized) selected by DEDS aggregate rank of median absolute deviations (see complete methods) of the discovery set.

然後是作者數據集的分類結果和一下公共分類方法結果進行比較:

這2個分類方法:

  • Perou's “PAM50” TNBC molecular classification (luminal A, luminal B, HER-2-positive, basal-like and normal-like subtypes)
  • Lehmann/Pietenpol “TNBC Type” molecular classification (basal-like-1, basal-like-2, immunomodulatory, luminal androgen receptor (LAR), mesenchymal, and mesenchymal stem-like subtypes)

也是有成熟的R包可以調用,就可以進行簡單的比較。

接着是基因集的展示,主要是熱圖看看是否表達量很明顯在不同亞型有差異,首先在訓練集和測試集裏面進行檢查,如下圖:

然後在外部公共數據集裏面查看:

然後對3個數據集的4個亞型的基因集都進行GO/KEGG註釋,這裏作者選擇的是IPA這個收費軟件,結果如下:

重點:有了上面的數據庫註釋信息,就可以根據註釋結果對我們的4個分組進行命名!!!

最後,有了轉錄水平的分類信息,然後就可以對他們同步獲得的CNV信息也是進行分類總結,簡單的全局CNV信息如下:

作者沒有提供單獨的每個樣本的segment化的cnv數據,所以沒辦法重複他們的分析。作者單獨指出來LAR這個亞型和另外3個亞型的CNV信息差異很大。

後記

作者的這個大數據結果只是用來做了分類,而且是TNBC羣體的,算是乳腺癌的熱點,那麼是不是可以進行深度挖掘呢?

比如:

  1. PMID: 25208879
  2. PMID: 26921331
  3. PMID: 30175120
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章