生命可以用更少的氨基酸編碼蛋白質嗎?

蛋白質是生命活動的主要承擔者,生命進化最終都會體現在蛋白質的功能的多樣化上。蛋白質是由20種氨基酸編碼的,相比於ATGC的DNA遺傳編碼信息,氨基酸字母表顯示出極大地複雜性和多樣性。這就產生了一系列非常有趣的問題:生命爲什麼會選擇20種氨基酸作爲標準字母表?更少的氨基酸能否組成或滿足一個蛋白質執行功能的基本組成單元?我們能否用更少的氨基酸創造出擺脫當前遺傳法則,設計更爲獨特的生命?
mark

一、氨基酸約化

理論上,具有相似性質、原子排列或頻率分佈的天然氨基酸可以被合併,並用更小數量的約化字母表來表示編碼的氨基酸,這個過程就叫氨基酸約化。 最簡單的約化方案是以極性或者親疏水性作爲標準,將20種氨基酸只約化爲兩個字母,最終會得到約化氨基酸字母表。當然,這種極端的方法產生的蛋白質,一定長度的序列所能承載的信息實在太少,幾乎不可能完成複雜的生命活動。那如果是3個,5個,10個呢?比如,我們使用氨基酸在不同蛋白質二級結構中的偏好性來約化20種氨基酸構成的蛋白質字母表。下圖這個蛋白質,通過氨基酸約化分析,它的三維結構與二級結構有極高的匹配度。
mark

另外,氨基酸字母表的大小直接決定motif序列的複雜性和多樣性。Motif 序列是一類蛋白質共有的一段氨基酸序列,也就是說這個 Motif 序列是這類蛋白質所共享的。比如,常見的是轉錄因子的結合位點,蛋白質的結合位點等等。總的來說,氨基酸序列logo作爲蛋白質序列保守度的可視化圖形,對研究同源蛋白質的系統發育和功能差異,以及蛋白質定向分子設計具有非常重要的意義。

但是,傳統的 Motif Logo 包括了20種氨基酸字母,顯示出極大地複雜性和多樣性。由於在 Logo 生成過程中缺少對氨基酸性質等生物學因素的考慮,往往會導致對蛋白質功能進化保守性的評估出現偏差,引入冗餘信息掩蓋關鍵氨基酸序列信息。利用氨基酸約化分析的不同方案去應用到 motif 的可視化中就可以很好的解決這個問題。基於約化氨基酸的信息學 Motif logo 具有更多的信息學和生物學意義,更好的反映了蛋白序列的功能保守性。

二、氨基酸約化 Motif

我們通過一個工具 RaacLogo 來完成約化 Motif 的構建,網址:http://bioinfor.imu.edu.cn/raaclogo

這裏包含了40多種聚類算法和74種約化後的氨基酸字母,這些字母被提取生成673個約化的氨基酸簇(RAACs),用於簡化複雜的logo字母。當20個氨基酸按照一定的相似性聚類到更小的字母表中,蛋白質的複雜性就會大大降低,減少了信息冗餘,相應的一些功能保守區域將被更清晰地顯示出來。
mark

我們拿溶菌酶C(Lysozyme C,LYC)來獲取約化氨基酸 Motif。這種酶具有溶菌作用,而且從雞到人無處不在。首先收集從雞到人的21個溶菌酶C比對序列,網站默認提供這個比對序列。然後,選擇約化方案(極性/中性/疏水性,RKEDQN,GASTPHY,CLVIMFW),經過 RaacLogo 處理的 Motif 會非常整潔和簡單,可以反映出高度的序列同源性。下面是詳細步驟:

1.首先輸入已經對比好的序列
mark

2.選擇一個氨基酸約化方案
mark

3.點擊 Submit 提交任務

4.我們選擇其中一個方案
mark

5.生成三種 Logo

原生氨基酸Motif,通過顏色和字母顯示約化 Motif,通過顏色顯示約化 Motif,可以通過右上角的導出相應的圖片。
mark

可以看到,儘管LYC的氨基酸編碼在從雞到人的進化過程中發生了很大的變化,但我們可以看到,LYC的整體氨基酸特性在約化後仍保持不變,並且LYC的同源功能得以維持。

三、基於氨基酸約化提取特徵

另一個應用是基於目前如火如荼的機器學習,我們都知道,做機器學習最關鍵的步驟就是特徵提取。通過約化氨基酸來做特徵提取,不僅可以減少過擬合的機會,而且會極大地降低計算維度,去除冗餘信息。從而利用這些特徵來做蛋白質的分類與預測。

1.進入網站 RaacBook

http://bioinfor.imu.edu.cn/raacbook

選擇 Analysis
mark

2.輸入整理好的數據集

比如,預測是否爲分泌蛋白質,就需要整理好分泌蛋白的數據集與非分泌蛋白的數據集。以 Fasta 的格式導入輸入框。
mark

3.選擇約化方案
mark

4.到了這一步可以選擇默認參數提交,得到結果
mark

5.我們的特徵在Download
mark

6.如果你熟悉機器學習,利用這個序列就可以來做蛋白質分類器

但是,如果不熟悉也沒關係,RaacBook 也提供了自動化的流程,完成蛋白質分類器的訓練。

四、基於氨基酸約化訓練模型

1.進入網站 RaacBook

http://bioinfor.imu.edu.cn/raacbook

選擇 Machine learning
mark

2.提供兩個數據集

這兩個數據集,可以是任意兩種蛋白質序列。比如,和之前一樣去預測是否爲分泌蛋白質,就需要整理好分泌蛋白的數據集與非分泌蛋白的兩個數據集,然後以 Fasta 的格式上傳。
mark

3.選擇參數

K-tuple:也叫K-mer,也就是說K個氨基酸作爲一個整體做特徵

Type:也就是分類方案

Method:機器學習方法,有KNN,SVM,RF,目前該工具正在更新更多的方法
mark

4.提交拿結果

會拿到訓練的ROC曲線,這個結果的好壞取決於之前選擇的參數。
mark

5.下載訓練結果
mark

6.拿到模型就可以去預測未知的序列

我們拿一個預測器來試試,比如防禦素蛋白的預測器

http://bioinfor.imu.edu.cn/idpf
mark

輸入一段序列,我們去預測蛋白質
mark

查看結果

可以看到,這幾段序列會有不同的打分值,如果一個標籤的佔比高,就意味着這段序列極有可能是這個標籤。比如,Psd1 這段序列就是植物中的一種防禦素蛋白。
mark

五、模型自動訓練的擴展

機器學習中模型訓練會消耗大量的硬件資源和時間,因此現在開發該工具的團隊正在提供可以在本地運行的自動訓練,以 Python 包的形式來使用與 RaacBook 類似的功能,敬請期待。先看看目前的進展圖:

會提供更多的模型訓練結果評估信息:
mark

篩選最優特徵
mark

ROC評估信息mark

高維特徵縮減和可視化
mark

總的來說,蛋白質氨基酸約化分析是對生命進化本質的探索,對於蛋白質合成、拓撲結構預測,功能預測分類以及藥物設計等具有重要的意義。

如果對氨基酸約化的研究方向感興趣可以聯繫:

左永春教授:[email protected]

鄭磊博士:[email protected]

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章