蛋白質組學

蛋白質組學
蛋白質是生物體的重要組成部分,參與幾乎所有生理和細胞代謝過程。此外,與基因組學和轉錄組學比較,對一個細胞或組織中表達的所有蛋白質,及其修飾和相互作用的大規模研究稱爲蛋白質組學。

蛋白質組學通常被認爲是在基因組學和轉錄組學之後,生物系統研究的下一步。然而,蛋白質組的研究遠比基因組學複雜,這是由於蛋白質內在的複雜特點,如蛋白質各種各樣的翻譯後修飾所決定的。並且,研究基因組學的技術要比研究蛋白質組學的技術強得多,雖然在蛋白質組學研究中,質譜技術的研究已取得了一些進展。

儘管存在方法上的挑戰,蛋白質組學正在迅速發展,並且對癌症的臨牀診斷和疾病治療做出了重要貢獻。幾項研究鑑定出了一些蛋白質在乳腺癌、卵巢癌、前列腺癌和食道癌中表達變化。例如,通過蛋白質組學技術,人們可以在患者血液中明確鑑定出腫瘤標誌物。表1列出了更多的蛋白質組學技術用於研究癌症的例子。

另外,高爾基體功能複雜。最新研究表明,它除了參與蛋白加工外,還能參與細胞分化及細胞間信號傳導的過程,並在凋亡中扮演重要角色,其功能障礙也許和腫瘤的發生、發展有某種聯繫。根據人類基因組研究,約1000多種人類高爾基體蛋白質中僅有500~600種得到了鑑定,建立一條關於高爾基體蛋白質組成的技術路線將有助於其功能的深入研究。

蛋白質組學是一種有效的研究方法,特別是隨着亞細胞器蛋白質組學技術的迅猛發展,使高爾基體的全面研究變爲可能。因此研究人員希望能以胃癌細胞中的高爾基體爲研究對象,通過亞細胞器蛋白質組學方法,建立胃癌細胞中高爾基體的蛋白質組方法學。

研究人員採用蔗糖密度梯度的超速離心方法分離純化高爾基體,雙向凝膠電泳(2-DE)分離高爾基體蛋白質,用ImageMaster 2D軟件分析所得圖譜,基質輔助激光解吸離子化飛行時間質譜(MALDI-TOF MS)鑑定蛋白質點等一系列亞細胞器蛋白質組學方法建立了胃癌細胞內高爾基體的蛋白圖譜。

最後,人們根據分離出的純度較高的高爾基體建立了分辨率和重複性均較好的雙向電泳圖譜,運用質譜技術鑑定出12個蛋白質,包括蛋白合成相關蛋白、膜融合蛋白、調節蛋白、凋亡相關蛋白、運輸蛋白和細胞增殖分化相關蛋白。通過亞細胞器分離純化、雙向電泳的蛋白分離及MALDI-TOF MS蛋白鑑定分析,研究人員首次成功建立了胃癌細胞SGC7901中高爾基體的蛋白質組學技術路線。
 

3.1 蛋白質功能預測工具[2]
也許生物信息學方法在癌症研究中最常用的就是基因功能預測方法,但是這些數據庫只存儲了基因組的大約一半基因的功能。爲了在微陣列資料基礎上完成功能性的富集分析,基因簇的功能註解是非常重要的。近幾年生物學家研發了一些基因功能預測的方法,這些方法旨在超越傳統的BLAST搜索來預測基因的功能。基因功能預測可以以氨基酸序列、三級結構、與之相互作用的配體、相互作用過程或基因的表達方式爲基礎。其中最重要的是基於氨基酸序列的分析,因爲這種方法適合於微陣列分析的全部基因。

在表3中,前三項列舉了三種同源搜索方法。FASTA方法雖然應用還不太廣泛,但它要優於BLAST,或者至少相當。FASTA程序是第一個使用的數據庫相似性搜索程序。爲了達到較高的敏感程度,程序引用取代矩陣實行局部比對以獲得最佳搜索。美國弗吉尼亞大學可以提供這項程序的地方版本,當然數據庫搜索結果依賴於要搜索的數據庫序列。如果最近的序列數據庫版本在弗吉尼亞大學不能獲得,那麼就最好試一下京都大學(Kyoto University)的KEGG站點。PSI-BLAST(位點特異性反覆BLAST)是BLAST的轉化版本,PSI-BLAST的特色是每次用profile搜索數據庫後再利用搜索的結果重新構建profile,然後用新的profile再次搜索數據庫,如此反覆直至沒有新的結果產生爲止。PSI-BLAST先用帶空位的BLAST搜索數據庫,將獲得的序列通過多序列比對來構建第一個profile。PSI-BLAST自然地拓展了BLAST方法,能尋找蛋白質序列中的隱含模式,有研究表明這種方法可以有效地找到很多序列差異較大而結構功能相似的相關蛋白,所以它比BLAST和FASTA有更好的敏感性。PSI-BLAST服務可以在NCBI的BLAST主頁上找到,還可以從NCBI的FTP服務器上下載PSI-BLAST的獨立程序。在檢查PSI-BLAST的搜索輸出時,也有一些注意事項,因爲假的匹配記錄很容易污染分析結果。

 

表3 蛋白質功能預測工具[2]

預測工具 類型 所在地 網站
BLAST 同源搜索 NCBI:美國國立生物技術信息中心;NIH:美國國家醫學研究院 http://www.ncbi.nlm.nih.gov/BLASTselect protein-protein BLAST
FASTA 同源搜索 美國弗吉尼亞大學、日本京都大學 http://fasta.bioch.virginia.eduhttp://fasta.genome.jp/
PSI-BLAST 同源搜索 NCBI:美國國立生物技術信息中心;NIH:美國國家醫學研究院 http://www.ncbi.nlm.nih.gov/BLASTselect “PSI- and PHI-BLAST”
Pfam 蛋白質家族鑑定 華盛頓大學 http://pfam.wustl.edu
SMART 保守結構域搜索 EMBL:歐洲分子生物學實驗室 http://smart.embl-heidelberg.de
PROSITE 功能模體搜索 瑞士生物信息研究所 http://us.expasy.org/prositehttp://motif.genome.ad.jp
ELM 真核生物功能結構域搜索 ELM 聯合體 http://elm.eu.org
STRING 通過比較基因組學進行功能預測 EMBL(歐洲分子生物學實驗室) http://string.embl.de
PSORT 亞細胞定位預測 人類基因組中心東京大學 http://www.psort.org
PFP 通過發掘PSI-BLAST結果進行功能預測 美國普渡大學 http://dragon.bio.purdue.edu/pfp

 

Pfam數據庫(Protein families database of alignments and HMM, 蛋白質家族比對和HMM數據庫)是基於HMM模型(隱馬爾可夫模型)構建並拓展起來的。它實際上是一個涵蓋了生物蛋白質序列中常見結構域的序列及其相對應的隱馬爾科夫模型的數據庫,由英國的Sanger Institute維護。Hmmpfam的工作原理簡單來說,就是將用戶所提交的查詢序列在Pfam庫中做比對計算,然後預測出查詢序列中所隱含的結構域信息。

表4中描述的三個數據庫資源——簡單模塊構架搜索工具(simple modular architecture research tool, SMART)、Motif數據庫(PROSITE)以及 ELM是具有不同特點的數據模體數據庫。SMART儲存有蛋白質家族的保守區域,可以作爲每一個基因家族的特徵標記。SMART可以說是蛋白結構預測和功能分析的工具集合。簡單點說,SMART就是集合了一些工具,可以預測蛋白的一些二級結構,如跨膜區(Transmembrane segment)、複合螺旋區(coiled coil region)、信號肽(Signal peptide)和蛋白結構域(PFAM domain)等。另一方面,PROSITE中的序列模體是一些重要的生物學位點,包括功能位點和容易被修飾的位點。ELM是真核生物功能位點數據庫。

PROSITE數據庫是基於多序列比較而得到的單一保守序列片段,或稱序列模體。PROSITE數據庫是基於對蛋白質家族中同源序列多重序列比對得到的保守性區域,這些區域通常與生物學功能有關,例如酶的活性位點、配體或金屬結合位點等。因此,PROSITE數據庫實際上是蛋白質序列功能位點數據庫。通過對PROSITE數據庫的搜索,可判斷該序列包含什麼樣的功能位點,從而推測其可能屬於哪一個蛋白質家族。Prosite數據庫實際上包括兩個數據庫文件:一個爲數據文件,即Prosite,該文件給出了能進行匹配的序列及序列的詳細信息;另一個爲說明文件,即PrositeDoc。PrositeDoc說明文件中給出該序列模式的生物學功能及其文獻資料來源。PROSITE數據庫使用正則表達式來表示序列模式。

STRING是一個已知和預測基因間功能聯繫的數據庫。STRING一個有趣的特點是,一個查詢序列的功能是利用比較基因組學方法預測的。例如,假設一個要查詢的基因是幾個基因組中功能已知的基因,這幾個基因組進化上相關,那麼預示着要查詢的基因與相鄰基因可能涉及相同的途徑或功能。

具有相同的系統發生的那些基因,或同時存在和同時消失的那些基因也預示着他們的功能是相互聯繫的。SMART也利用微陣列中的共表達來分析,用戶可以利用SMART站點進行功能預測,基因功能之間的聯繫資料也可以免費獲得。

PSORT工具可以預測基因的亞細胞定位。從根本上說,PSORT工具基於其氨基酸序列預測蛋白質亞細胞定位。它利用機器將要查詢蛋白質的特殊序列(如信號肽序列)檢測和分類並定位到已知位置。PSORT II是廣泛使用的蛋白質亞細胞定位分析軟件,通過輸入的氨基酸序列,能夠預測出其在亞細胞結構中可能的位置。

PFP(蛋白質功能預測)服務器是最近研發的。不同於傳統的PSI-BLAST,PFP利用序列採樣數可以發掘更多的功能信息。

在列出的蛋白質功能預測工具中,BLAST、FASTA和Pfam最可靠,但它們無法提供關於已經儲存在公共數據庫中的已註解基因的更多的信息。其它方法都優於上述三種方法,且有更廣的覆蓋率,但是使用時要小心,因爲有相對較高的假採樣。爲了避免這種情況發生,應該多采樣幾種方法,檢查獲得結果的一致性。

 

表4 蛋白質結構預測工具
預測工具 類型 所在地 網址
PSIPRED 二級結構 倫敦大學 http://bioinf.cs.ucl.ac.uk/psipred/
PORTER 二級結構 都柏林學院 http://distill.ucd.ie/porter/
SAM-T02 二級結構 加州大學聖塔克魯茲分校 http://www.cse.ucsc.edu/research/compbio/HMM-apps/T02-query.html
SABLE 二級結構和溶劑可接近性 美國辛辛那提兒童研究基金會兒童醫院醫療中心 http://sable.cchmc.org/
PredictProtein 二級結構和其他 美國哥倫比亞大學 http://cubic.bioc.columbia.edu/predictprotein/
COILS 2個或以上的α螺旋組成的超螺旋結構區域(捲曲螺旋區域) 瑞士,EMBnet http://www.ch.embnet.org/software/COILSform.html
GlobPlot 無規則區域 歐洲分子生物學實驗室 http://globplot.embl.de/
PONDR 無規則區域 印地安納大學 http://www.pondr.com/
TMHMM 跨膜結構域 丹麥科技大學 http://www.cbs.dtu.dk/services/TMHMM-2.0/
HMMTOP 跨膜結構域 匈牙利科學院 http://www.enzim.hu/hmmtop/
SWISS-MODEL 3D結構同源建模法 瑞士生物信息研究所 http://swissmodel.expasy.org
HHPred 3D結構同源建模法 馬克斯?普朗克科學促進協會 http://protevo.eb.tuebingenmpg.de/toolkit/index.php?view=hhpred
MODELLER 3D結構同源建模法 加州大學舊金山分校 http://salilab.org/modeller/
FUGUE 3D結構,指認方法(線引法或穿線法) 劍橋大學 http://www-cryst.bioc.camac.uk/~fugue/
Phyre 3D結構,指認方法(線引法或穿線法) 帝國理工學院(倫敦大學(University of London)的獨立學院) http://www.sbg.bio.ic.ac.uk/~phyre/
SPARKS 3D結構,指認方法(線引法或穿線法) 紐約州立大學水牛城分校 http://phyyz4.med.buffalo.edu/hzhou/anonymous-fold-sparks2.html
Robetta 3D結構從頭計算法(ab initio) 華盛頓大學 http://robetta.bakerlab.org/

 

3.2 蛋白質結構預測工具
當候選基因被選擇出來通過微陣列進行實驗檢測時,生物信息學蛋白質預測工具就對設計生物化學實驗非常重要。例如,一個基因預測的二級結構就對預測結構域很有益處,因爲這對設計有限的蛋白質水解以鑑定基因的功能區域非常重要。當今二級結構預測算法的準確率大約75%,足以達到平常預測的要求。表4中列舉了5種二級結構預測工具,它們都利用機器學習的技術來識別大家熟悉的二級結構,如α-螺旋和β-摺疊。機器學習就是要使計算機能模擬人的學習行爲自動通過學習獲取知識和技能,不斷改善性能,實現自我完善。機器學習研究的就是如何通過識別和利用現有知識來獲取新知識和新技能。 PSI-PRED、PORTER、SABLE和PredictProtein seartificial利用人工神經網絡(Artificial Neural Networks,簡寫爲ANNs) ,而SAM-T02則利用HMM。 SABLE和 PORTER 被認爲是這個領域中最準確的預測工具,它們的準確率分別可以達到78.4%和79%。儘管列表中的工具在蛋白質預測方面準確率還相對較低,但這些工具不僅能夠預測二級結構,也能夠預測其它結構信息,包括混亂區域、兩個或兩個以上的α螺旋組成的超螺旋結構區域、每個殘基的可溶解程度以及要搜索序列的模體結構,所以他們可以用來“一步完成”蛋白質序列分析。COILS通過序列中週期出現的疏水殘基來預測蛋白質的捲曲螺旋。捲曲螺旋是存在於多種天然蛋白質中的結構模式。近年來,人們通過對天然蛋白質中的捲曲螺旋結構以及根據已有知識設計合成的捲曲螺旋結構的研究,已基本掌握了這類結構模式的特點,並將特異的捲曲螺旋結構應用於生化分析、工業和醫藥衛生等領域。GlobPlot和PONDR是預測蛋白質固有無規則區域的工具,這些區域的天然構象中,沒有穩定的蛋白質二級結構。這些無規則區域的重要性最近纔剛剛被人們發現,因爲它們是很多重要的功能性位點,例如其它蛋白質和配體的結合區域位於球狀蛋白質的結構域的外部,所以本質上是沒有規則的[3]。

HMMTOP是預測蛋白序列的跨膜螺旋與拓撲結構工具,TMHMM是預測蛋白的跨膜螺旋工具。它們都利用了HMM。跨膜結構域預測是生物信息學在蛋白質結構預測中應用得最成功,HMMTOP預測的跨膜蛋白質98%的結構域和85%的拓撲結構是正確的。且上述這兩種工具是基於網絡的,HMMTOP也提供本地拷貝[3]。

表5的後面列舉了5種預測三級結構的工具。預測蛋白質三級結構的方法在最近幾十年中有了較大的改進,並且有些方法的準確率已經足以應用於實踐[3]。
結構預測方法大致分爲三類:
(1) 同源性建模(homology modeling)方法:這類方法的理論依據是,如果兩個蛋白質的序列比較相似,則其結構也有很大可能比較相似。有實驗表明,如果序列相似性高於75%,則可以使用這種方法進行粗略的預測。這類方法的優點是準確度高,缺點是隻能處理和模板庫中蛋白質序列相似性較高的情況;
(2) 從頭計算(Ab initio或de novo) 方法:這類方法的依據是熱力學理論,即求蛋白質能量最小的狀態。生物學家和物理學家等認爲從原理上講這是影響蛋白質結構的本質因素。然而由於巨大的計算量,這種方法並不實用,目前只能計算幾個氨基酸形成的結構。IBM 開發的 Blue Gene 超級計算機就是要解決這個問題;
(3) 穿線法(Threading或fold recognition):由於 Ab Initio 方法目前只有理論上的意義,Homology方法受限於待求蛋白質必需和已知模板庫中某個蛋白質有較高的序列相似性,因此對於其它大部分蛋白質來說,有必要尋求新的方法,於是Threading應運而生。

以上三種方法中,Ab Initio方法不依賴於已知結構,其餘兩種則需要已知結構的協助。通常將蛋白質序列和其真實三級結構組織成模板庫,待預測三級結構的蛋白質序列,則稱之爲查詢序列(query sequence)。
SWISS-MODEL和HHPred 是基於網絡的同源建模工具,HHPred軟件也可以下載。 MODELLER是這一類型軟件中應用最早和最廣泛的軟件。MODELLER和SWISS-MODEL有同源建模數據庫。接下來三個工具FUGUE、Phyre和SPARKS屬於穿線法。穿線法可在數據庫中搜尋和待測蛋白結構非常匹配的模板蛋白質。與同源建模法不同,穿線法中模板蛋白質和待測蛋白質明顯的序列相似性並不是必要條件。穿線法可以檢測一個數據庫中親緣關係很遠的蛋白質,Z-score作爲一個統計學值,可以顯示模板蛋白質和待測蛋白之間的匹配程度,當Z-score較低時,就意味着沒有匹配搜索的結構[3]。

最後,Robetta工具屬於從頭計算法。它利用從數據庫收集的序列片段來組裝模型,是一個自動化的蛋白質結構預測服務工具。它由貝克實驗室提供,用於非商業性質的從頭計算和比較建模[3]。
 

3.3 蛋白質-蛋白質相互作用數據庫
表5列出了蛋白質之間相互作用(protein-protein interactions, PPI)的數據庫。在過去的幾年中,有大規模實驗開始研究蛋白質之間的相互作用,並且很多相關資源可以在互聯網上得到。瞭解一個基因編碼蛋白質與其它蛋白質之間的關係,對於推測這個基因發揮功能所需的背景關係具有重要意義。BIND(biomolecular interaction network database)數據庫是BOND(biomolecular object network databank)數據庫的一個子數據庫,它是現在最大的PPI數據庫。BIND數據庫收錄了1500種生物分子之間的200,000種相互作用的數據。這種相互作用不僅包括蛋白質之間的相互作用,還包括蛋白質與DNA、RNA、小分子、脂質以及糖類物質之間的相互作用。BIND數據庫每日更新、覆蓋面廣,包含人、果蠅、酵母、線蟲等物種的PPI[3]。

在 BIND 數據庫中,PPI 被分成 3 大類:二元分子相互作用(binary interaction) 、分 子 復 合 物(molecularcomplexe)以及生物途徑(biological pathway),它們分別從不同層面呈現了分子間的相互作用關係[3]。

DIP(database of interacting protein)數據庫專門存儲經實驗證實的來自文獻報道的二元 PPI,以及來自 PDB(protein data bank)數據庫的蛋白質複合物。目前DIP收錄了18,000種相互作用的數據,DIP的目的在於建立一個簡單、易用、高度可信的PPI公共數據庫[3]。

MIPS(mammalian protein-protein interactiondatabase)數據庫同樣利用文獻挖掘技術,專門存儲哺乳動物的PPI,主要包括人、大鼠和小鼠等物種。該數據庫詳細記錄了蛋白質相互作用的類型、實驗證據及其結合位點。同時,它還提供蛋白質名稱、實驗方法和物種等多種查詢方式[3]。

HPRD(human protein reference database)數據庫是包含蛋白質註釋、PPI、轉錄後修飾和亞細胞定位等多種信息的綜合數據庫[3]。

IntAct也是一個存儲和分析生物分子間相互作用的公共數據庫。它主要記錄二元相互作用及其實驗方法、實驗條件和相互作用結構域,包括人、酵母、果蠅和大腸桿菌等物種。 IntAct 數據庫分爲基本查詢和高級查詢:基本查詢可以根據蛋白質名稱、PubMedID等進行簡單搜索;高級查詢根據實驗方法和IntAct自定義的控制詞彙進行查詢。GRID存儲了酵母、果蠅和線蟲的遺傳和生理作用。Osprey蛋白質相互作用網絡可視化系統是加拿大多倫多大學一個生物信息學研究組開發的,其目的在於更好地研究蛋白質相互作用網絡和蛋白質複合物[3]。

表5 蛋白質-蛋白質相互作用數據庫和數據庫工具
工具 類型 所在地 網址
BIND 蛋白質-蛋白質相互作用途徑 加拿大多倫多西乃山醫院 http://bind.ca/
DIP 蛋白質-蛋白質相互作用 加州大學洛杉磯分校 http://dip.doe-mbi.ucla.edu/
MIPS 哺乳動物的蛋白質-蛋白質相互作用 慕尼黑蛋白質序列信息中心 http://mips.gsf.de/proj/ppi/
HPRD 人類蛋白質參考資源 美國約翰霍普金斯大學 http://www.hprd.org/
GRID 酵母、果蠅和線蟲的遺傳和生理作用 加拿大多倫多西乃山醫院 http://biodata.mshri.on.ca/grid/
IntAct 蛋白質相互作用數據庫的db系統和工具的開發資源 歐洲生物信息學中心 http://www.ebi.ac.uk/intact/
Ospray 蛋白質相互作用的可視化工具 加拿大多倫多西乃山醫院 http://biodata.mshri.on.ca/osprey/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章