我想做信號通路分析,但我就是不想學編程

“我想做信號通路分析,但我就是不想學編程。”

“我又不是生信狗,學代碼會死。”

“你們這些做生信的,整天把數據分析搞得神神祕祕,不就是怕被人搶飯碗而已嘛。”

“這都沒分析出我想要的結果,不靠譜。”

“你們做生信的不都是寫好pipeline的嗎?怎麼那麼久還沒分析好?”

……

……

……

哦……

科研日常問題:我有一張基因/蛋白列表,想知道富集在什麼通路上,如何做?

這篇文章就教大家,如何一句代碼都不用敲,通過簡單的複製粘貼還有點兩下鼠標,就能實現通路富集的分析

Metascape

1

http://metascape.org/gp/index.html#/main/step1

Metascape的主界面長這樣,操作起來非常簡單,只需要按照提示,一步一步進行操作即可。數據庫更新得很勤,不怕落伍。

首先在Step 1那裏,粘貼你的基因列表。然後Step 2會問你是什麼物種。Step 3點Express Analysis。然後就自動出結果了,輸出的圖片顏值很高,還能下載原始的excel表回去自己作圖,還能自動導出成漂釀的成套的ppt結果彙報……是不是so easy!!!

氮素!!!

Metascape有一個不是很討喜的地方,就是默認的Express Analysis,總是喜歡把各個數據庫的信號通路混一起分析,這樣很容易出現,某些非常general的數據庫,就容易搶戲,出現各種冗餘。比如說,下面這個結果,就是默認把Reactome、CORUM和GO數據庫全部給攪在一起展示了。

當然,這並不是不可破解的問題。只要在Step 3那裏,點擊Custom Analysis,然後在Enrichment的選項卡里,勾選你想要的數據庫就好了。

目前,Metascape支持不少流行的數據庫,比如Hallmark Gene Sets、Reactome等,還有我最不愛用的GO和KEGG。至於其他參數是啥意思,不懂話就佛系對待吧,別改了。。。

之前在《拿到基因兩眼一抹黑?沒關係,先做個基因富集分析吧!》一文裏除了介紹了Metascape還介紹了另外一個在線富集分析軟件DAVID,網站:https://david.ncifcrf.gov/。正好本文未提到,做個補充。如果嫌這個更新慢,去東方,最好用的在線GO富集分析工具每週更新。

Enrichr

2

如果嫌Metascape的數據庫少,那就試試數據庫多到上天的Enrichr吧。

http://amp.pharm.mssm.edu/Enrichr/

Enrichr的界面更加清爽了,只需要你把基因/蛋白列表貼進去然後點submit就完事了。

我第一次用Enrichr就被震驚了!

這也太多數據庫了吧!!!

以上只列出了其中三頁數據庫,即轉錄調控、信號通路、基因本體,後面還有疾病/藥物,細胞類型,還有一些雜七雜八的,甚至連過期數據庫都有。而且數據同樣支持導出。

氮素!!!

如果你用了就知道,Enrichr根本就沒問你,貼的基因到底是個啥物種。因此,這個程序有個很坑的地方,就是把所有物種的數據庫全部混一起分析了……比如下面這個WikiPathways分析,就把人和小鼠的結果一起展示了……(並且未知這種混合,是否會影響通路富集分析的結果)

此外,由於Enrichr的數據庫太多,所以更新不是很及時。比如上面展示的WikiPathways,還是2016年的,而這兩年WikiPathways的更新頻率幾乎是月更。

ConsensusPathDB

3

http://cpdb.molgen.mpg.de/

CPDB是德國人開發的,界面長這樣,不算很直觀。但數據庫量一樣很大,整合了32個數據庫。想做信號通路富集分析,點左邊的over-representation analysis,貼上列表,選擇數據類型(到底是gene id,還是symbol,還是別的什麼),然後提交就好了。

下一步,就是選要用哪些數據庫來分析。

最好還是一次只選一個,因爲不知道原始的程序設計是如何的,到底是各個數據庫獨立分析,還是跟metascape默認一樣,全部混一起。整體而言,分析速度極快,使用起來也很方便。

氮素!!!

CPDB只支持分析人類基因……

總結

4

以上這些工具的分析結果,在調教好參數的情況下(比如p值 cut-off,數據庫類型),各個網站出來的結果沒太大區別,所以算法上應該都是靠譜的。我拿同一套東西跑ClusterProfiler,結果也是沒差多少。

這幾個數據庫都有什麼優缺點呢?

Metascape:支持物種多,數據庫更新非常及時,且導出的數據顏值高,甚至可以直接發表。但是支持數據庫較少,而且在國內打開較慢,且運行速度有時候較慢(畢竟分析完後還要生成pdf、excel、ppt還順便打成壓縮包那麼一大堆東西)。

Enrichr:數據庫多到上天,分析速度還行。但是不支持選擇特定物種,默認就是多物種的數據庫混一起的,同時部分數據庫更新不夠及時。

CPDB:速度快,支持非常多的數據庫,更新還算勤,幾個月更一次吧。但只能分析人類基因。

總體而言,Metascape還是最好用的,畢竟支持的物種比較多,人、鼠、斑馬魚、果蠅、線蟲、瘧原蟲、酵母、擬南芥都有。雖然支持的數據庫不算多,但簡單過一遍分析,看看有什麼通路冒出來,也算是勉強夠用。

那有沒有支持的物種多、數據庫多、更新勤、速度快,甚至能夠做非模式生物、自定義通路數據庫的在線工具呢?

學R語言,然後琢磨一下ClusterProfiler這個神包吧。

PS:我自己喜歡用的通路數據庫是Reactome(沒錢買KEGG怎麼辦?REACTOME開源通路更強大),WikiPathways,HumanCyc(雖然免費的庫比較舊),還有Hallmark gene sets。雖然ClusterProfiler只有Reactome(額外再下個包),但只要去下載對應的數據庫,用其中的通用enrichment分析函數enricher,就可以任性分析了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章