GWAS綜述(生信文獻閱讀俱樂部精選)

生信文獻閱讀俱樂部的首年活動進入尾期,部分俱樂部成員從頭到尾堅持下來了,優秀程度不下於我! 這裏展示澳大利亞衚衕學的第20周的GWAS綜述翻譯稿件: From genome- wide associations to candidate causal variants by statistical fine- mapping

摘要

從具有遺傳標記的複雜性狀的統計學關聯推進到理解影響性狀的功能性遺傳變異往往是一個複雜的過程。精細定位可以選擇遺傳變異並對其進行優先級排序以供進一步研究,但是大量的分析策略和研究設計使得選擇最佳方法具有挑戰性。作者回顧了不同精細繪圖方法的優缺點,強調了影響性能的主要因素。主題包括全基因組關聯研究(GWAS)的解釋結果,連鎖不平衡的作用,統計精細繪圖方法,跨種族研究,基因組註釋和數據整合以及其他分析和設計問題。

很清晰的abstract,可以說一句廢話都沒有,同時讓你很快瞭解到下文每一part講的是什麼內容。

基礎知識預備

讀Review 的好處就是你往往可以學到很多,或者加固一些知識。我主要是基於自己知識翻譯,並且該文章主要於人類的GWAS相關,所以相關概念也是以人類的疾病等爲例。

Genome- wide association studies (關聯分析):掃描遺傳標記,通常是單核苷酸多態性(SNPs),使用統計學相關的手段以發現與性狀相關的變異體

Complex traits (雜合性狀)

無論是由許多基因和環境因素共同作用引起的數量性狀(例如血壓和身高)還是常見疾病(例如癌症),每種效應都具有相對較小的影響,並且幾乎不需要疾病發生就會產生該性狀。

Tags SNPS (標籤SNPs):

一般與鄰近的SNP緊密相關,使得標籤SNP充當未測量的SNP的替代物。

Linkage disequilibrium (連鎖不平衡):

給定羣體中單倍型上不同基因座的等位基因的非隨機關聯。LD是進行精細定位的關鍵,來自不同變體 沒有等位基因的重組,但可以共同遺傳某系性狀,意味着變體在同一染色體上鄰近。

Casual variants (因果變體): 多個因果變體遺傳變異在機制上對疾病或數量性狀有貢獻,但並不完全具有滲透性。因爲單個變體可能不具有致病的能力。

Fine-mapping (精準定位): 通過使用統計學,生物信息學或功能方法來改進因果變體的基因組定位

Penalized regression 刑罰化迴歸 :

一種通過最大化數據的對數似然性來估計迴歸係數的方法,同時放置限制迴歸係數大小的懲罰,將小系數收縮至零,有時恰好爲零。儘管這會導致係數估計偏差,但它會通過減少係數估計的方差來改進模型的總體預測

Summary statistics 總結統計 :

衡量性狀與一個或多個單核苷酸多態性(SNPs)之間的統計關聯度量,其概括SNP對性狀影響的大小,影響大小的變化以及影響大小如何相互關聯。對於例子對照研究,總結統計包括邏輯迴歸估計的對數比率,對數比率的差異和對數比率之間的相關性。

Trans- ethnic 跨種族 :

一種遺傳關聯研究,包括來自不止一個種族背景的研究對象

Multiple testing correction 多重測試修正 :

當測試多個統計關聯時,隨着統計測試數量的增加,至少有一個significant的結果被宣告的概率會增加。如果m個獨立統計檢驗中的每一個使用P值<α來聲明顯着性,那麼m檢驗中至少有一個顯着性檢驗的機會大約爲mα。多次測試修正通過對每個測試關聯使用更嚴格的P值閾值來保持聲明至少一個significant結果的整體概率。 Bonferroni校正使用P值<α/ m來測試每個關聯。

Statistical power 統計力 :

當存在統計關聯時,正確捨去SNP與性狀之間無統計關聯的null假設的概率。統計力取決於SNP效應的大小,樣本大小和決定統計顯着性的P值閾值。

Haplotype 單倍體型 :

在同一染色體上發現的等位基因組合

Haplotype block 單倍體塊 :

染色體上的一組高度關聯的等位基因,可能會一起遺傳。

Genotype imputation 基因型估算 :

用於估計研究對象的未觀察基因型的方法,對於在基因型單核苷酸處具有缺失或不可靠基因型的個體 多態性(SNP)和所有個體在沒有基因型SNP

Recombination hot spots 重組熱點區域 : 重組率遠高於中性期望值的基因組區域。

Cross- validation 交叉驗證 :

一種通過隨機將樣本分割成訓練集以訓練模型(例如,確定要包括在模型中的哪個單核苷酸多態性(SNP))和用於測量其預測性能的測試集來構建預測模型的技術。通常將原始樣本分成十個相同大小的子樣本,使用九個訓練和一個測試,重複這個過程十次,使得每個十個 子樣本被用作測試樣本,然後平均10個訓練子樣本的預測性能。

prior probablity 已知概率 :

在貝葉斯概率理論中,分配給感興趣參數的概率分佈被指定爲,在觀察數據之前表示已知的知識。

Posterior inclusion probability 後包含概率:

單核苷酸多態性(SNP)被包括在任何因果模型中的邊際概率,取決於所觀察到的數據,從而提供SNP應被包括作爲潛在致病因素的權重。

Introduction

一篇好的文章,自然會有好的introduction,特別是對於review paper 來說

文章從常見的人類疾病引出GWAS,闡明GWAS與SNP的聯繫,進而引出一系列與SNP GWAS相關的基礎概念。一篇好的review, 是可以讓即使不是該領域或者普通的讀者,快速明白文章中心內容。

然後給出一個通過SNP calling,來精準定位的流程。這裏寫作手法是簡單的描述每一步的步驟,然後再後面再分段,將每一步作爲一個小標題詳細討論。

流程圖

首先,簡單跟大家過一遍這個流程圖。

  1. 完成SNP calling 還有相關表型的收集後,開始進行GWAS 的study
  2. 基於曼哈頓圖中總結的全基因組關聯研究(GWAS)P值,使用實現全基因組統計顯着性(即,P值<5x10-8)的單核苷酸多態性(SNP)列表,來確定精確定位的感興趣區域或有價值的區域
  3. 通常使用Haploview圖根據SNP之間的連鎖不平衡(LD)結構探索每個感興趣的區域。通過LocusZoom圖來觀察統計學關聯,這圖闡明瞭每個SNP與主要SNP的關聯模式,以及該區域基因的註釋。
  4. 然後,根據評估多個SNP對性狀的同時影響的統計模型,可將區域劃分爲獨立的子區域以減輕計算負擔。使用下文將要介紹其中一種方法在每個區域進行統計學精細定位。
  5. 最後應用方面,使用基因組特徵註釋從精細定位選擇的SNP,以優先進行後續功能研究。 例如eQTL,表達數量性狀基因座。

最後在introduction的末尾,作者總結了該文章的亮點,並對下文將要討論的每一個小點進行了簡單介紹,順利開始過渡到正文的內容。

花了那麼大篇幅jiang講,是想讓大家也深刻了解這樣寫作的模式,不難,絕對可學。這篇文章的introduction部分是比較值得參考學習的。

解釋來自GWAS的主要SNP

作者開始詳細介紹流程圖的每一步

決定精準定位的區域,是在GWAS發現全基因組重要結果之後進行的。常用GWAS結果和曼哈頓所有P值的圖表來衡量一次一個SNP與一個特徵的邊際關聯,然後是繪製所感興趣區域的LocusZoom圖。這使得研究者可以關注不同區域中具有最小(即最顯着)P值的SNP,有時稱爲顯著SNP。當SNP關聯達到公認的P值<5×10-8 的基因組範圍統計學顯着性閾值時,GWAS結果是最可靠的,該閾值是多重檢驗校正的一個閾值,儘管一些研究者使用較弱的閾值P值<10-6,用以突出暗示含有因果變體的區域。

主導SNP的侷限性在於,它可能不是因果變體所導致的。這可能是因爲GWAS microarrays是基於標籤SNP,標籤SNP僅與未測量的因果SNP相關。此外,即使測量或估算因果SNP,當統計功效不大時,這有很大機會:因果SNP與性狀的統計關聯不是所有相關SNP之間最顯着的關聯。作者考慮了多重因果關係,LD的影響,並得出類似的結論,即真正的關聯不可能導致最小的P值,部分原因是變異對複雜性狀的影響很小。這些發現強調了在考慮主導SNP作爲可能的因果關係以及精細定位以鑑定因果變體或變異體的重要性時應該謹慎的重要性。

LD用於羣體精準定位

基於羣體的研究中的精細定位利用了成對基因座之間非隨機關聯的測量。當基因座彼此靠近並且它們之間的重組頻率較低時,來自在同一染色體上發生的不同基因座的等位基因(稱爲單元型)傾向於作爲單位遺傳。對於單倍型的等位基因,偶然發生一起被稱爲配子關聯或更通常稱爲LD。LD最常用的測量方法是標準化差異,可以通過兩個SNP的次要等位基因計數(即不常見的等位基因)之間的Pearson相關性輕鬆估算。這個相關係數與統計能力直接相關,這是精細定位的合理測量,儘管對於罕見疾病的病例對照研究,諸如歸因風險等措施可以更好地發揮作用。

使用LD精細定位一個複雜的特徵是基於,前提是祖先減數分裂重組減少了LD,意味着與性狀關聯最強的SNP是因果變異或接近因果變異。然而,由於基因組區域中LD的複雜模式,一次分析一個SNP可能會引起錯誤的解析。影響LD的重組以外的因素是遺傳標記的突變率,自然選擇,種羣遷徙和混合,種羣瓶頸和羣體歷史。因爲LD受到影響 除了重組以外的因素,僅僅依賴於成對LD或甚至單元型模塊的模式來提供可靠的複雜性狀的精細定位是有限的。

影響精準定位的因素

許多因素影響精細定位的性能,包括區域內因果SNP的數量及其對性狀的影響大小,局部LD結構,樣本大小,SNP密度以及是否可以測量因果變異。研究設計中可以控制的因素是樣本量和SNP密度。通常獲得高SNP密度來捕獲因果變異是至關重要的。那麼如何提高SNP的密度呢,一般有兩種方法:基因型插入增加額外的基因分型

基因型插入

插入SNPs可以填補零星缺失的基因型,協調來自不同GWAS基因分型陣列的數據,以執行彙集或meta分析並增加用於精細定位的SNP密度。插入成功的關鍵標準是直接測定的SNP與沒固定類別SNP高度相關,並且提供了代表研究樣本的LD模式和等位基因頻率的模板的適當參考標準。雖然插入SNP對質量控制過濾的選擇具有一定提升作用,但檢測與特徵相關聯的能力隨着插補精度的降低而降低。

增加額外的基因分型

由於SNP插入的準確性取決於LD結構,因此缺乏LD的區域可能需要實際的基因分型來準確評估它們與特徵的關聯。通過開發針對某些疾病或特徵的定製的SNP array,成本效益型使得額外的基因分型變得更容易獲得。額外基因分型有助於的情況是:驗證推算的SNPs,可能通過減少基因型測量誤差來改善精細定位;發現不具有主導SNP的強LD的低頻SNP;在參考面板中不能很好地表達SNP。

精確定位的方法

目前主流的精確定位的方法有三種分別是: 探索式方法,懲罰迴歸模型和貝葉斯方法。

探索式方法

該方法是最早被使用來做精確定位的方法,從實際經驗和嘗試驗證猜測發展而來,但它沒有統一定義的標準。

其原理是: 來自GWAS的主導SNP周圍的LD結構在精細定位中具有重要作用,通常我們首先檢查圍繞主導SNP的SNP之間的關聯。其一種方法是根據它們與主導SNP的成對相關性(r2)過濾SNP,保留那些r2高於閾值的SNP纔有潛在因果關係。

缺點:

功能挖掘能力有限,因爲它們沒有考慮SNP對性狀的共同影響,並且它們不能客觀地衡量SNP是否是因果的變體,還是依賴於某種程度上的任意閾值和SNP之間相關性的主觀解釋。

懲罰迴歸模

懲罰迴歸模型是在其他統計領域開發的,其目的是將高維預測變量(例如,用於精細定位的SNP數據)降低與特徵強烈關聯的小得多的集合。

傳統的模型建立是基於前向選擇(或可選的逐步方法),使用P值來確定SNP是否應包含在模型中。然而,大量的SNP和SNP之間的高度相關性使得傳統的迴歸模型不穩定。

懲罰迴歸模型通過將小效應估計收縮到零,同時將SNP效應大小和SNP選擇估計到模型中。處罰模型使用調整參數來選擇模型中的SNPs,並選擇調整參數來促進具有較小效應大小的SNP從模型中移除。 處罰模型傾向於導致稀疏模型,僅選擇屬於一組相關SNP的一個或幾個SNP。這可以產生一個很好的預測模型,其中包括非因果SNP,並且在它們高度相關時排除因果SNP。

貝葉斯方法

貝葉斯方法專爲精細定位而設計,與啓發式和懲罰迴歸方法相比具有優勢

懲罰性迴歸和貝葉斯變量選擇方法的挑戰是確定哪些SNP對性狀具有非零效應大小(迴歸β-值)。 刑罰化模型選擇基於交叉驗證的SNPs,從而最大限度地減少預測性狀的誤差。相反,貝葉斯推斷側重於特定假設或特定模型的概率,從而提供了概率性解釋。

貝葉斯方法的精細定位有許多優點。首先,與P值不同,可以直接比較SNP的後驗概率。其次,與根據與主導SNP的相關性選擇SNP相比,他們傾向於選擇較少的SNP作爲潛在的致病因素。第三,研究表明,貝葉斯方法比條件逐步迴歸和懲罰迴歸模型更好。最後,因爲貝葉斯模型基於SNP的共同作用,所以它們控制具有較大效應的SNP,提高了檢測效應較小的SNP的能力。

將個研究與meta-analyses相結合

將多個研究的數據結合可以有效的提高精確定位的準確性,上述的策略可以用於當個人水平的數據結合在一起。但是個人水平的數據並不是那麼好從多個研究中獲取。因此,可以使用與SNP的性狀關聯僅需彙總統計

這種策略越來越popular,因爲它簡化了數據共享和計算問題。選擇適當的彙總統計數據時,與使用個體級別數據相比,這方法更加不容易丟失關鍵的信息。(當原始數據用於估計SNP相關性時,相對於分析個體級數據,不存在信息丟失)。實際的例子通常使用合適的參考樣本來評估SNP的相關性,在1000個基因組計劃,允許將單個SNP分析的彙總統計數據組合起來進行聯合分析。但是要注意的是如果參考樣本中LD 模式沒有代表性,可能會讓聯合分析產生偏差,因此參考樣本的大小不應該太少,要隨着GWAS的大小而增加。

不同種之間的GWAS精細定位

對種族差異種羣的GWAS的比較表明,SNP與複雜性狀的關聯通常在不同種羣中是一致的,等位基因對性狀的影響方向相似。將遺傳多樣性羣體中同一性狀的GWAS結果結合起來的跨種族薈萃分析可以通過利用LD模式中的種族差異來輔助精細定位。重要的問題可以重建爲,是關於種族羣體的選擇。例如,基於不同歐洲血統或歐洲和亞洲血統的混合分析,對精細定位的提高微乎其微。但通過包括非洲的血統(具有狹窄的LD)就可以獲得更加更加可靠精確的定位。

前面都是討論比較高深的問題,下面回到我們熟悉的註釋。

基因的註釋

基因註釋是精確定位最重要的一步,因爲沒有基因功能的解析,定位都是徒勞。將生物學功能配對到DNA序列的基因組註釋,可以提供關於通過精細定位分析選擇的SNP的可能功能的信息,並且可以幫助確定後續功能研究的優先次序。常見的公衆基因功能數據庫包括, Gene Ontology, GENCODE, ENCODE, FANTOM5 and the Roadmap Epigenomics Project。

通過將多種數據類型集成到各種組織和細胞類型中,當前的數據庫爲大約80%的人類基因組提供了功能註釋。對已發表的GWAS結果的分析已經確定了複雜特徵關聯中,功能註釋是顯着豐富,促使使用註釋來提高精定位的準確性。

下面分蛋白質編碼註釋和非蛋白質編碼註釋來討論:

蛋白質編碼註釋

編碼蛋白質的基因中SNP的註釋集中在它們對所得蛋白質結構的影響上。註釋的實例包括SNP是否發生在外顯子,內含子或剪接位點或是否參與可變剪接。大量的生物信息學註釋方法可用於功能表徵編碼SNP並提供預測其有害影響的比重。

非編碼蛋白質註釋

DNA元素百科全書(ENCODE)項目已經證明基因組是普遍轉錄的,並且大部分鹼基存在於初級轉錄本中,包括非蛋白質編碼轉錄本。非編碼區的遺傳變異通常涉及基因調控。非編碼註釋的一些實例是啓動子,增強子,長非編碼RNA基因座,轉錄起始位點,轉錄因子結合位點,調節序列,染色質可及性和組蛋白修飾模式的特徵以及DNaseI超敏感位點。可以通過來自數據庫的位置權重矩陣來估計對推定的轉錄因子結合位點(TFBS)基序的變體影響。

將註釋與精確定位相結合

SNP註釋通常應用於通過精細定位分析選擇的SNP,以便識別註釋富集的模式並優先考慮功能驗證的候選基因。這種方法會有一定的誤差性。替代的方法有,使用功能註釋來對迴歸模型中的SNP進行加權或擴展貝葉斯模型以允許SNP因果依賴於註釋的先驗概率。

將精確定位與註釋相結合具有一定的限制:首先,將註釋納入先驗概率對有效的研究的影響有限,其次,目前對廣泛基因組功能的理解可能過於侷限,無法準確地改進因果關係的先驗概率。相反,當關聯信號最好是中等的,在高LD區域中,當區域中存在多個因果SNP時,或者當不同區域共享特定註釋特徵的富集時,註釋可能有所幫助。

將GWAS與基因表達相結合

GWAS發現的超過90%的性狀相關等位基因定位於非編碼區域,有強有力的證據表明增強子,啓動子,絕緣子等調節元件的富集。此外,與具有相同等位基因頻率的基因型陣列上的其他SNP相比,與複雜性狀相關的SNP顯着更可能是表達數量性狀基因座(eQTL)。這表明GWAS發現的SNP影響附近基因的表達量,並且這種改變的表達最終影響該性狀。

統計方法將eQTL數據與GWAS數據整合以量化,是從SNP到基因表達到關聯複雜性狀的途徑。中間變量mRNA是SNP和性狀之間的介質。測試因果途徑的一種方法是通過因果推斷測試,小P值推斷因果關係。隨機化是另一種方法,可用於區分單個SNP是否影響基因表達和性狀與LD中單獨的SNP是否影響基因表達和特徵。整合eQTL和GWAS結果的關鍵問題是測量表達的組織類型。複雜疾病通常由多種組織或細胞類型的功能障礙引起,並且基因的表達在不同類型的組織中變化很大。爲特定疾病過程或複雜特徵選擇相關組織類型可能是一項重大挑戰。

小結

到目前爲止,精細定位工作已經取得了相當大的進步,以完善通過複雜性狀的大規模遺傳關聯研究發現的最可能的遺傳變異。本文回顧了各種分析方法,以及基於貝葉斯精細定位的更復雜和相關的方法。所有方法的共同基礎是測量的SNP和因果變體之間的LD,這使得精細映射可行並且具有挑戰性。

由於我的背景是做植物這方面,很多名詞還有概念都沒有接觸過,本次解讀主要是根據我自己的理解在“表明的水平”去解讀,更加深刻的內容還需要大家自己回到原文中去理解。隨着人類基因組不斷深入發展與挖掘,通過GWAS進行疾病等性狀精細定位會越來越精準與流行。對比人類基因組,現在植物基因組的研究還是停留在一個比較粗的階段,但詳細日後精細定位也會逐漸運用到植物,已提高產量或者各種抗性。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章