蛋白質結構與功能的預測方法總結和資料匯總

蛋白質結構與功能的預測方法總結和資料匯總
“折疊(fold)”的概念

“折疊(fold)”是近年來蛋白質研究中應用較廣的一個概念,它是介與二級和三級結構之間的蛋白質結構層次,它描述的是二級結構元素的混合組合方式。

二級結構的預測方法介紹:

Chou-Fasman算法:

是單序列預測方法中的一種,它是使用氨基酸物理化學數據中派生出來的規律來預測二級結構。 首先統計出20種氨基酸出現在α螺旋、β折疊和無規則卷曲中出現頻率的大小,然后計算出每一種氨基酸在這幾種構象中的構象參數Px.構象參數值的大小反映了該種殘基出現在某種構象中的傾向性的大小。按照構象參數值的大小可以把氨基酸分為六個組:Ha(強螺旋形成者)、ha( 螺旋形成者)、Ia(弱螺旋形成者)、ia(螺旋形成不敏感者)、ba(螺旋中斷者)、Ba(強螺旋中斷者)。Chou和Fasman根據殘基的傾向性因子提出二級結構預測的經驗規則,要點是沿蛋白序列尋找二級結構的成核位點和終止位點。這種方法可能能夠正確反映蛋白質二級結構的形成過程,但預測成功率并不高,僅有50%左右

GOR算法:

也是單序列預測方法中的一種,因其作者Garnier, Osguthorpe和 Robson而得名。這種方法是以信息論為基礎的,也屬于統計學方法的一種,GOR方法不僅考慮被預測位置本身氨基酸殘基種類對該位置構象的影響,也考慮到相鄰殘基種類對該位置構象的影響。這樣使預測的成功率提高到 65% 左右。GOR方法的優點是物理意義清楚明確,數學表達嚴格,而且很容易寫出相應的計算機程序,但缺點是表達式復雜。

多序列列線預測:

對序列進行多序列比對,并利用多序列比對的信息進行結構的預測。調查者可找到和未知序列相似的序列家族,然后假設序列家族中的同源區有同樣的二級結構,預測不是基于一個序列而是一組序列中的所有序列的一致序列。

基于神經網絡的序列預測:

利用神經網絡的方法進行序列的預測,BP (Back-Propagation Network) 網絡即反饋式神經網絡算法是目前二級結構預測應用最廣的神經網絡算法,它通常是由三層相同的神經元構成的層狀網絡,使用反饋式學習規則,底層為輸入層,中間為隱含層,頂層是輸出層,信號在相鄰各層間逐層傳遞,不相鄰的各層間無聯系,在學習過程中根據輸入的一級結構和二級結構的關系的信息不斷調整各單元之間的權重,最終目標是找到一種好的輸入與輸出的映象,并對未知二級結構的蛋白進行預測。神經網絡方法的優點是應用方便,獲得結果較快較好,主要缺點是沒有反映蛋白的物理和化學特性,而且利用大量的可調參數,使結果不易理解。許多預測程序如PHD、PSIPRED等均結合利用了神經網絡的計算方法。

基于已有知識的預測方法(knowledge based method):

這類預測方法包括Lim 和 Cohen 兩種方法。Lim 方法是一種物理化學的方法,它根據氨基酸殘基的物理化學性質,包括:疏水性、親水性、帶電性以及體積大小等,并考慮殘基之間的相互作用而制訂出一套預測規則。對于小于50個氨基酸殘基的肽鏈, Lim 方法的預測準確率可以達到73%. 另一種是 Cohen 方法,它的提出當時是為了α/β蛋白的預測,基本原理是說:疏水性殘基決定了二級結構的相對位置,螺旋亞單元或擴展單元是結構域的核心,α螺旋和β折疊組成了結構域。

混合方法(hybrid system method):

將以上幾種方法選擇性的混合使用,并調整他們之間使用的權重可以提高預測的準確率,目前預測準確率在70%以上的都是混合方法,其中,同源性比較方法、神經網絡方法 和 GOR方法 應用最為廣泛。

三級結構的預測:

同源性建模:

假設對已知結構的另一個蛋白質序列來排列一個蛋白質的序列,如果靶序列和已知結構序列在整個序列的全長有很高的相似性,在合理的信任度上,我們可以使用已知結構作為靶蛋白質的模版。

“串線(threading)”算法:

串線結構分析是試圖把未知的氨基酸序列和各種已存在的三維結構相匹配,并評估序列折疊成那種結構的合適度。串線法最適用于折疊(fold)的識別,而不是模型的建立。它是快速用未知序列的氨基酸側鏈替換已知序列中的氨基酸位置。Jones等首先從蛋白質結構數據庫中挑選蛋白質結構建立折疊子數據庫,以折疊子數據庫中的折疊結構作為模板,將目標序列與這些模板一一匹配,通過計算打分函數值判斷匹配程度,根據打分值給模板結構排序,其中打分最高的被認為是目標序列最可能采取的折疊結構。Threading 方法的難點在于序列與折疊結構的匹配技術和打分函數的確定。(Jones等,1992)

蛋白質二級結構預測:

蛋白質二級結構的預測通常被認為是蛋白結構預測的第一步,是根據它們被預測的局部結構,對蛋白序列中的氨基酸進行分類。二級結構的預測方法通常分為多序列列線預測和單序列預測的方法。由于單序列預測所提供的信息只是殘基的順序而沒有其空間分布的信息,所以單序列預測的算法預測準確率并不高而且對于一些特殊結構,這些算法很難預測成功。 多序列列線預測和神經網絡的應用大大提高了二級結構預測的準確度,通過對序列比對的預測可以明確的提供單一位點在三維結構上的信息。這樣通常二級結構預測的準確率比單序列預測能夠提高10%.許多方法據說可達到70%-77%,目前較為常用的幾種方法有:PHD、PSIPRED、Jpred、PREDATOR、PSA。其中最常用的是PHD。PHD結合了許多神經網絡的成果,每個結果都是根據局部序列上下文關系和整體蛋白質性質(蛋白質長度、氨基酸頻率等)來預測殘基的二級結構。那么,最終的預測是這些神經網絡每個輸出的算術平均值。 這種結合方案被稱為陪審團決定法(jury decision)或者稱為所有勝利者(winner-take-all)法。PHD被認為是二級結構預測的標準。

蛋白質三級結構預測:

蛋白質三維結構的預測方法通常包括:同源性建模和從頭開始的預測方法。對數據庫中已知結構的序列的比對是預測未知序列三級結構的主要方法,也即同源建模的方法。通常對于同源建模的方法過程并非統一,但基本思路是一致的,基本包括如下幾個步驟:
1.使用未知序列作為查詢來搜索已知蛋白質結構。
2.產生未知序列和模版序列最可能的完整比對。
3.以模版結構骨架作為模型,建立蛋白質骨架模型。
4.在靶序列或者模版序列的有空位區域,使用環建模過程代替合適長度的片段。
5.給骨架模型加上側鏈。
6.優化側鏈的位置。
7.使用能量最小和已知的優化知識來優化結構。

在進行序列比對時,最容易使用 BLASTP 程序比對 NRL-3D 或 SCOP 數據庫中的序列。如果發現超過100個堿基長度且有遠高于40%序列相同率的匹配序列,則未知序列蛋白與該匹配序列蛋白將有非常相似的結構。在這種情況下,同源性建模在預測該未知蛋白精細結構方面會有非常大的作用。同源性建模的成功的關鍵通常不是建模使用的軟件或服務器,在設計與模版結構好的比對時的技巧更加重要。

結構預測相關程序及數據庫:
常用蛋白序列和結構數據庫:
數據庫說明網址鏈接
PDB蛋白質三維結構http://www.rcsb.org/pdb
SWISS-PROT蛋白質序列數據庫http://kr.expasy.org/sprot/
PIR蛋白質序列數據庫http://pir.georgetown.edu/
OWL非冗余蛋白質序列http://www.bioinf.man.ac.uk/dbbrowser/OWL/
EMBL核酸序列數據庫http://www.embl-heidelberg.de/
TrEMBLEMBL的翻譯數據庫http://kr.expasy.org/sprot/
GenBANK核酸序列數據庫http://www.ncbi.nih.gov/Genbank/
PROSITE蛋白質功能位點http://kr.expasy.org/prosite/
SWISS-MODEL從序列模建結構http://www.expasy.org/swissmod/SWISS-MODEL.html
SWISS-3DIMAGE三維結構圖示http://us.expasy.org/sw3d/
DSSP蛋白質二級結構參數http://www.cmbi.kun.nl/gv/dssp/
FSSP已知空間結構的蛋白質家族http://www.ebi.ac.uk/dali/fssp/fssp.html
SCOP蛋白質分類數據庫http://scop.mrc-lmb.cam.ac.uk/scop/
CATH蛋白質分類數據庫http://www.biochem.ucl.ac.uk/bsm/cath/
Pfam蛋白質家族和結構域http://pfam.wustl.edu/

蛋白質功能預測:

相關概念:

1. 重疊群(contig):
基因組測序中將許多序列片段經過比對找到重疊區,從而連接成長片段,稱重疊連續群,簡稱重疊群。
2. 序列模體(motif):
通常指蛋白序列中相鄰或相近的一組具有保守性的殘基,與蛋白質分子及家族的功能有關。
3. Smith-Waterman算法:
1981年,Smith 和Waterman提出的一種用來尋找并比較這些具有局部相似區域的方法,即常用的Smith-Waterman算法,它也是一種基于矩陣的方法,而且也是運用回溯法(backtracking)建立允許空位插入的比對。這個算法的一個重要特征是矩陣中每個單元均可以是比對結果序列片段的終點,該片段的相似性程度由該單元中的分數值表示。
4. 計分矩陣(scoring matrix):
記分矩陣是描述殘基(氨基酸或堿基)在比對中出現的概率值的表。在記分矩陣中的值是兩種概率比值的對數,一個是在序列比對中氨基酸隨機發生的概率。這個值只是指出每個氨基酸出現的獨立幾率的概率。另一個是在序列比對中,一對殘基的出現的有意義的概率。這些概率來源于已知有效的真實的序列的比對的樣本。

蛋白質功能確定的思路及方法:

1. 通過相似序列的數據庫比對確定功能

具有相似性序列的蛋白質具有相似的功能。因此,最可*的確定蛋白質功能的方法是進行數據庫的相似性搜索。需要明確的是,一個顯著的匹配應至少有25%的相同序列和超過80個氨基酸的區段。對于不少種類的數據庫搜索工具,快速搜索工具(如BLASTP)速度快,也很容易發現匹配良好的序列,一般就沒必要運行更花時間的工具(如FASTA、BLITZ);但當BLASTP不能發現顯著的匹配時,就需要使用那些搜索速度較慢但很靈敏的工具了。所以,一般的策略就是先進行BLASTP檢索,如果不能得到相應的結果,就可以運行FASTA,如果FASTA也無法得到相應結果,最后就需要選用完全根據Smith-Waterman 算法設計的搜索程序,如 BLITZ。
比對所選用的記分矩陣對最終預測結果影響也很重要,首先,選擇的矩陣須與匹配水平相一致。PAM250應用于遠距離匹配(<25%相同比率),PAM40應用于不很相近的蛋白質序列,BLOSUM62為一個通用矩陣。其次,使用不同矩陣,可以發現始終出現的匹配序列,這樣可以減少誤差。

2. 確定序列特性:疏水性、跨膜螺旋等

許多功能可直接從蛋白質序列預測出來。例如,疏水性信息可被用于跨膜螺旋的預測,還有不少小的序列模體(motif)是細胞用于特定細胞區室(cell compartment)蛋白質的定向。對于跨膜螺旋的預測涉及到對跨膜蛋白跨膜區域的識別,這就需要鑒定序列中可以折疊成螺旋并存在于膜的疏水環境中的區域??缒ば蛄幸话憔哂幸恍┟黠@的特征,比如,為了跨膜α螺旋必須有大約17~25個氨基酸長度,因為細胞膜內部是由脂肪酸的長的碳氫鏈組成,所以膜中的α螺旋必須存在相對的面向膜的非極性面才能在能量上是有利的。早期的算法程序會直接分析這些特征,并通過分析序列的17~25個氨基酸的窗口,對每個窗口產生的疏水性得分,得分高的即被預測為跨膜螺旋,現在一些經過改進的更精確的算法,不僅提高預測準確性到90%以上,而且可以預測跨膜螺旋的一些其他特征,比如在膜上的方向。這些都依賴于一系列對已知跨膜螺旋的特征研究的成果。
3. 通過序列模體數據庫等的比對確定功能

蛋白質不同區段的進化速率不同,蛋白質的一些部分必須保持一定的殘基模式以保持蛋白質的功能,通過確定這些保守區域,有可能為蛋白質功能提供線索。主要有兩種方法可用于序列模體的查找。一種方法是查找匹配的一致序列或序列模體。這種技術的優點是快捷,序列模體數據庫龐大而且不斷被擴充;缺點是有時不靈敏,因為只有與一致序列或序列模體完全匹配才被列出,而近乎匹配的都將被忽略。使在做復雜分析時候受到嚴重限制。第二種方法是更加精細的序列分布型方法。原則上,分布型搜索的是保守序列(不只是一致序列),這樣可以更靈敏的找出那些相關性較遠的序列。但分布型和分布數據庫需要大量的計算和人力,所以分布數據庫的記錄沒有序列模體數據庫多。在實際分析時,應同時對這兩種類型的數據庫都進行搜索。

結構密碼蘊藏在排序中

這是一個復雜但很有意思的生命過程——基因承載了生命的遺傳信息,生命的功能則是藉由蛋白質執行的;蛋白質是由20種氨基酸組成的肽鏈,而DNA中的基因控制了蛋白質中氨基酸種類的排序。蛋白質只有在折疊的狀態下才能表現出生命的功能,但折疊是如何自發形成的呢?

氨基酸序列與蛋白質空間結構的關系研究源于美國生物化學家安芬森(C.Anfinsen)。1961年,他研究了核糖核酸酶的去折疊和重折疊過程,發現在相同的環境中去折疊的蛋白質都會恢復到原來的空間結構,認為蛋白質鏈會以自由能最低的方式形成三維結構,由此推測蛋白質的折疊密碼隱藏在氨基酸排序中,即所謂的安芬森原則:蛋白質一級排序決定三維結構。因為“對控制蛋白質鏈折疊原理的研究”,安芬森獲得1972年諾貝爾化學獎。

然而,蛋白質的空間結構極其復雜,該如何確定呢?現在有兩種方法:一種是實驗測量,包括用X射線衍射和核磁共振成像;一種是理論預測,利用計算機根據理論和已知的氨基酸序列等信息來預測,方法包括同源結構模擬、折疊辨識模擬和基于第一性原理的從頭計算。

1913年,勞爾和布拉格父子第一次發現X射線通過晶體可以產生衍射現象從而確定原子在晶體中的位置并因此獲得諾貝爾獎。1957年,劍橋大學的肯德魯用勞爾-布拉格的方法確定出第一個蛋白質(肌紅蛋白)的三維結構從而獲得1962年的諾貝爾化學獎。此后18年間,人類共測出38個蛋白質結構;至1980年,這個數目增長到184個。

顯然,用實驗方法測量蛋白質及生物大分子的結構相當繁瑣。張陽說:“蛋白質結構的實驗測定十分費時費力。多年前測定一個蛋白質的結構就有可能獲得諾貝爾獎。如今隨著技術的進步,實驗測蛋白質結構的時間和花費已經大大地減少了,但測定一個蛋白質結構的平均費用也在100萬美元左右?!?/p>

自然界有大量種類的蛋白質,實驗只能測出其中非常小的一部分,目前“蛋白質數據庫”中只有3萬多個蛋白質的結構。有沒有其他方法可以更快、更經濟地測量出大量蛋白質呢?

物含妙理總堪尋

既然蛋白質結構的密碼隱藏在序列中,那么解開這個密碼就可以通過序列來解開蛋白質的結構。張陽說:“我們的目的就是用計算機從氨基酸的序列來直接預測蛋白質的結構。將序列輸進計算機里,設計一套程序,讓計算機去計算和確定蛋白質中每個原子的三維坐標。如果這種理論方法經實驗數據的驗證可行,那么就可能通過計算機自動預測出蛋白質的結構,這幾乎是免費的?!?/p>

然而,用序列預測結構談何容易。驅動氨基酸折疊形成特定三維空間的作用諸多,包括氨基酸側鏈分子間作用力、水分子表面張力、氨基酸側鏈分子間的電偶極距和電磁力以及它與水分子的相互作用等。根據數學計算,由100個氨基酸構成的小蛋白質的空間構象可能會有1050種空間結構。

物含妙理總堪尋。一種氨基酸序列只可能有一種蛋白質結構,這就是計算機預測蛋白質結構的意義所在。根據安芬森的熱動力學原理,蛋白質在細胞中應該處在它與環境的自由能最低態。這意味著可以根據物理、化學、生物學等知識來設計蛋白質的能量函數,因此尋找這種最低自由能所代表的結構。

科學家們使出十八般武藝來預測序列與結構間的密碼,尋找出三種有代表性的預測方法:同源結構模擬(Homology Modeling)、折疊辨識模擬(Fold Recognition)和基于“第一原則”的從頭計算方法(Ab Initio)。

同源模擬又稱為比較性模擬。如果目標蛋白質與已測出結構的蛋白質的序列有30%以上的相似,那么這兩種蛋白質可被視為同源,它們也應該有類似的空間結構。因此,若知道同源蛋白質家族中的某些蛋白質的結構,就可利用它們作為模板來模擬目標蛋白質的結構,這種方法速度較快,精度也比較高。但是這種方法有局限性,畢竟已知結構的蛋白質數量很少,而且很多蛋白質沒有同源系列。

折疊辨識模擬又稱串線指認方法,意思是指把目標蛋白序列與蛋白質數據庫中所有的蛋白質結構進行逐一對比。自然界中有些蛋白質的氨基酸序列不大相同,但其結構極為相似。張陽說:“這對我們建立新計算機模型非常有用。在無法進行序列比對的情況下,我們就想辦法用目標序列直接與已有的其他蛋白質結構進行比較。具體做法是,設計一個打分系統,讓計算機來識別這個序列放在被比較的其他蛋白質上是否‘舒服’,再根據得分高低判斷序列是否會折疊成這種結構,評分系統是這種方法的關鍵?!?/p>

“從頭計算”方法源于安芬森的“最低自由能構型假說”。前兩種方法是用已知結構的蛋白質為模板來構建新的結構,而“從頭計算”不需要模板,它是以物理為基礎來研究蛋白質的折疊方法,怎樣設計適當的能量函數,怎樣找到相應的最低自由能是這種方法的關鍵。

蛋白質結構預測免費服務

目前已經有許多蛋白質結構預測服務通過因特網對公眾免費開放。由于結構預測技術本身的局限性,每種預測服務都各有得失。 我們簡要介紹幾種國際上較為常用的預測服務的優缺點、使用方法及工作原理。

三級結構預測(同源建模):

瑞士生物信息研究所 SWISS-MODEL

丹麥技術大學生物序列分析中心 CPHmodels

比利時拿摩大學 ESyPred3D

英國癌癥研究中心 3DJigsaw

二級結構預測(折疊識別):

美國哥倫比亞大學 PredictProtein

英國瓦衛克大學 PSIpred

印度昌迪加爾的微生物技術研究所 APSSP

歐洲生物信息研究所(EBI)Jpred

美國加利福尼亞大學 SSpro

α-螺旋傾向性預測(從無到有):

歐洲分子生物學實驗室(EMBL) AGADIR

AGADIR Service

AGADIR —— 一種預測肽鏈中螺旋含量的算法

AGADIR是一種基于螺旋/卷曲轉化理論,可以在殘基水平上準確預測單體肽螺旋行為的算法。利用此算法,可以預測肽鏈的平均螺旋含量、α碳和α氫原子的構象、偶合常數、及N-Cap、C-Cap等參數。通過用圓二色性法和核磁共振法的測評,此算法對短肽鏈,即三級相互作用不明顯時,預測準確很高。

利用AGADIR的預測數據,可以參考之對肽鏈螺旋,及至蛋白結構進行適當修飾,以達到特定的實驗目的,或進行其它應用。

到目前為止,蛋白質結構解析的方法主要是兩種,x射線衍射和NMR。近年來還出現了一種新的方法,叫做Electron Microscopy。

其中X射線的方法產生的更早,也更加的成熟,解析的數量也更多,我們知道,第一個解析的蛋白的結構,就是用x晶體衍射的方法解析的。而NMR方法則是在90年代才成熟并發展起來的。這兩種方法各有優點和缺點。
首先來說一下,這兩種方法的一般的步驟和各自的優點和缺點。

電子顯微鏡(electron microscopy)作為一種新型的技術,目前的應用還是非常少,并且比較狹窄,到最后在給它作些介紹,而且相信絕大多數人也沒有聽說過,也不會有很大的興趣。

首先是X晶體衍射。首先要得到蛋白質的晶體。
通常,都是將表達蛋白的基因PCR之后克隆到一種表達載體中,然后在大腸桿菌中誘導表達,提純之后摸索結晶條件,等拿到晶體之后,工作便完成的80%,將晶體進行x射線衍射,收集衍射圖譜,通過一系列的計算,很快就能得到蛋白質的原子結構。
用x射線的優點是:速度快,通常只要拿到晶體,甚至當天就能得到結構,另外不受大小限制,無論是多大的蛋白,或者復合體,無論是蛋白質還是RNA、DNA,還是結合了什么小分子,只要能夠結晶就能夠得到其原子結構。
所以x射線方法解析蛋白的瓶頸是摸索蛋白結晶的條件。這個時候運氣就顯的特別重要。關于這個有好多有趣的離子。據說國外一個同學在摸索兩個月無果之后,毅然去度假,就將蛋白扔在一個很隨便的地方,等度假回來之后,卻發現已經結晶了。
然后,來說一下NMR。
NMR(nuclear magnetic resonance)現象早已發現了很久,然后將這種方法用來解析蛋白結構,卻是近一二十年的事情。不過到今天為止,用nmr方法來解析結構已經十非常成熟的方法。
原理暫且放在一邊,先說常規步驟。
首先通過基因工程的方法,表達出目的蛋白,提純之后,摸索一下蛋白穩定的條件,如果蛋白沒有聚合,而且折疊良好,便將蛋白樣品(通常是1mM-3mM,500ul,Ph6-7的PBS)裝入核磁管中,放入核磁譜儀中,然后用一系列寫好的程序控制譜儀,發出一系列的電磁波,激發蛋白中的H、N13、C13原子,等電磁波發射完畢,在收集受激發的原子所放出的“能量”,其實也是小磁場,通過收集數據、譜圖處理、電腦計算從而得到蛋白的原子結構。
它的優點就是,蛋白在液體中得到結構,是一個動態的結構,事實上所有在pdb中或者文獻中發表的NMR結構都是十個或者二十個結構的ensemble(集合),這就是因為這些結構都是進行能量優化后符合條件的結構,或者說就是溶液中的蛋白結構。因為是動態就很容易的研究蛋白與其他蛋白或者配基的相互作用。缺點是,受大小的限制,到目前為止NMR解析蛋白結構的上限是50kd。

無論是晶體還是NMR,蛋白都要符合下面的條件:首先表達量要大,象NMR要求1個mM500UL,這就要求十幾個毫克,結晶要摸索很多的條件也需要大量的蛋白。所以蛋白一定要在胞質中表達才行。其次,蛋白要折疊。我們知道許多蛋白,尤其是真核蛋白在大腸桿菌中是以包含體的形式存在,這種情況下是不行的,除非復性。如果你的蛋白在胞質中表達,如果你不確定是不是表達,可以從分子篩上的位置,或者掃CD確定一下,當然最簡單的是做一個NMR一維譜,只需要幾分鐘。
小于20Kd的蛋白可以考慮NMR,因為NMR研究功能核相互作用方面是更加擅長的,而且不需要結晶,現在速度也不慢。如果比較大,可以考慮晶體解析。

蛋白質的亞細胞定位
關于蛋白質的亞細胞定位的預測,In general,預測方法分為3個步驟。首先,為每一類亞細胞locations構建客觀而具有代表性的數據集。其次,從數據集中提取特征參數或 descriptor。最后也是最關鍵的一步,通過算法比較查詢序列中所包含的特征參數與各類相應的location的相似度,作出判斷,一般會用一組概率的形式來表述。很明顯,其中大量運用的是機器學習理論和統計學的方法。對算法有興趣的朋友可以參考下面這一篇綜述,“An overview on predicting the subcellular location of a protein” In Silico Biology 2002http://www.bioinfo.de/isb/2002/02/0027/main.html

以下是該綜述中涉及的部分server,都是比較經典的。

PSORT:http://psort.nibb.ac.jp
By amino acid composition information and sorting signal knowledge

TargetP:http://www.cbs.dtu.dk/services/TargetP/
By discriminating the individual targeting signal peptide

MitoProt:http://ihg.gsf.de/ihg/mitoprot.html
By discriminating mitochondrial and chloroplast signal peptide

Predotar:http://www.inra.fr/Internet/Produits/Predotar/
By discriminating mitochondrial, chloroplast signal peptide

NNPSL:http://predict.sanger.ac.uk/nnpsl
By amino acid composition

SobLoc:http://www.bioinfo.tsinghua.edu.cn/SubLoc/
By amino acid composition

SubLoc: http://www.bioinfo.tsinghua.edu.cn/SubLoc/
By more sequence information besides the amino acid composition

一篇文獻:http://cubic.bioc.columbia.edu/papers/2003_loci_3dnet/paper.html

“Better prediction of sub-cellular localization by combining evolutionary and structural information”

找到一些晶體學的原理。一起學習。
蛋白質純化與結晶
獲得蛋白質的晶體結構的第一個瓶頸,就是制備大量純化的蛋白質(>10 mg),其濃度通常在10 mg/ml 以上,并以此為基礎進行結晶條件的篩選。運用重組基因的技術,將特定基因以選殖(clone)的方式嵌入表現載體(expression vector)內,此一載體通常具有易于調控的特性。之后再將帶有特定基因的載體送入可快速生長的菌體中,如大腸桿菌(Escherichia coli),在菌體快速生長的同時,也大量生產表現載體上的基因所解譯出之蛋白質。一般而言純度越高的蛋白質比較有機會形成晶體,因此純化蛋白質的步驟就成為一個重要的決定因素。

在取得高純度的蛋白質溶液后,接下來就是晶體的培養。蛋白質晶體與其他化合物晶體的形成類似,是在飽和溶液中慢慢產生的,每一種蛋白質養晶的條件皆有所差異,影響晶體形成的變量很多,包含化學上的變量,如酸堿度、沈淀劑種類、離子濃度、蛋白質濃度等;物理上的變數,如溶液達成過飽和狀態的速率、溫度等;及生化上的變數,如蛋白質所需的金屬離子或抑制劑、蛋白質的聚合狀態、等電點等,皆是養晶時的測試條件。截至目前為止,并無一套理論可以預測結晶的條件,所以必須不斷測試各種養晶溶液的組合后,才可能得到一顆完美的單一晶體(圖一) 。

蛋白質晶體的培養,通常是利用氣相擴散法(Vapor Diffusion Method) 的原理來達成;也就是將含有高濃度的蛋白質(10-50 mg/ml)溶液加入適當的溶劑,慢慢降低蛋白質的溶解度,使其接近自發性的沈淀狀態時,蛋白質分子將在整齊的堆棧下形成晶體。舉例來說,我們將蛋白質溶于低濃度(~1.0 M) 的硫酸銨溶液中,將它放置于一密閉含有高濃度(~2.0 M)硫酸銨溶液的容器中,由氣相平衡,可以緩慢提高蛋白質溶液中硫酸銨的濃度,進而達成結晶的目的(圖二)。

蛋白質晶體在外觀上與其他晶體并無明顯不同之處,但在晶體的內部,卻有很大的差異。一般而言,蛋白質晶體除了蛋白質分子外,其他的空間則充滿約40 %至60 %之間的水溶液,其液態的成分不僅使晶體易碎,也容易使蛋白質分子在晶格排列上有不規則的情形出現,造成晶體處理時的困難及繞射數據上的搜集不易等缺點。但也由于高含水量的特性,讓蛋白質分子在晶體內與水溶液中的狀態,極為相似。所以由晶體所解出的蛋白質結構,基本上可視為自然狀態下的結構。

繞射數據的記錄
X 光繞射點搜集,隨著時間的推移,也由早期以閃爍計數器(scintillation counter) 一次記錄一個點及使用許多X-光片(X-ray film) 拍下繞射點,每張X 光片都要經過顯影的步驟;之后進而使用多重金屬絲板(multiwire)自動記錄每次偵測到的繞射點。目前使用的熒光記錄板(image plate),則是利用磷化物經X 光激發后會產生熒光,經熒光掃描儀記錄成數字模式的圖像文件后,再以燈光照射一段時間去除記錄板上的熒光點,即可再進行下一次的記錄工作。電荷耦合器(charge-coupled devices, CCD) 的出現及技術的改良,可以不斷地記錄繞射點,而不需熒光板掃描及去除步驟,如此將加速繞射點的搜集。目前的同步輻射光源幾乎全部使用CCD 來記錄繞射數據(圖三)。
在實驗室中的X 光光源的產生,一般使用銅作為旋轉式陽極靶(rotating anode),可以產生波長為1.54 ? Cu Kα放射光。不過,以目前發表的文獻來看,在同步輻射(synchrotron)光源所搜集的資料有增加的趨勢,因為同步輻射所提供的X 光束,其強度較實驗室強約百倍、甚至上千倍,同時它也可以改變不同頻段的波長,以供非尋常散射(anomalous dispersion) 的實驗研究

繞射原理
單一分子在X 光下的訊號極弱,無法被記錄下來,然而在晶體中通常是由許多排列整齊的蛋白質分子所組成,當晶體內所有的分子(數量約在1015 個以上)一起在同一個方向上進行繞射且繞射波皆同步時,即足以使所產生的訊號被記錄下來。每一個繞射波的強度與其振幅(amplitude)的平方成正比。但繞射波的另一個變數,繞射波的相角(phase),則無法直接測量得到,必須利用其他的方法方能獲得(見相角決定方法)。若是繞射點振幅與相角都可獲知,則可以進一步地來計算晶體中的電子密度圖。
下列方程式即是著名的傅立葉轉換公式,ρ表示在晶體中任何一個位置上(x, y, z) 的電子密度,φhkl 為繞射光相角,|Fhkl|為繞射光振幅,可由實驗測得的繞射光強度開平方獲得。
所以若是記錄了所有的繞射波的強度(h,k,l),并計算出所有繞射光的相角,帶入這個公式,蛋白質在晶體內的結構,就以電子密度圖的方式呈現在我們的眼前了(圖四)。
相角決定方法
決定相角通常有三種常用的方法,分別是同型置換法(isomorphous replacement method) 、非尋常散射法(anomalous dispersion method) 以及分子置換法(molecular replacement) ,現在分述如下:
(1)同型置換法
同型重原子置換法最早的應用是在1954 年,用來解出血紅蛋白hemoglobin 的相角,需要在晶體蛋白質的內部加入重原子。通常以浸泡的方法使重原子能夠滲透(diffuse) 進入到晶體內部和蛋白質結合。這些重原子對X 光產生較大的繞射,對繞射點的強度會有明顯的差異,根據這些差異,可定出重原子的位置,并進而推算出蛋白質晶體繞射光的相角。理論上,若是只獲得一組重原子衍生物數據(single isomorphous replacement, SIR),經計算后,其解并不是唯一的;因此通常會結合數個不同的重原子衍生物所得到的數據(multiple isomorphous replacement, MIR), 來求得更精確的相角。
(2) 非尋常散射法
較重的原子會吸收特定波長的X 光,運用接近吸收邊緣(absorption edge)的X 光進行繞射實驗時,會產生不尋常的X 光散射或吸收現象,稱為非尋常散射(anomalous scattering),此一現象可導致繞射振幅及相角的改變。經由數個不同波長的X 光照射,記錄吸收邊緣前后所產生的不同繞射結果,可依此計算出相角。由于它使用數個不同波長,所以稱為「多波長非尋常散射法」(multiwavelength anomalous dispersion, MAD) 。使用這個方法的前提是X 光的波長需依重原子的特性加以調整,而一般在實驗室的X 光通常是屬于固定波長的,并無法滿足這個方法,所以非尋常散射法就需要利用同步輻射可變波長的光源來完成(5)。目前很多實驗室使用硒化甲硫胺酸(selenomethionine)來取代甲硫胺酸 (methionine),在養菌的同時加入硒化甲硫胺酸,使蛋白質的形成過程帶入含有重原子硒的硒化甲硫胺酸,接下來養出蛋白質晶體,在硒的吸收邊緣進行繞射實驗,并運用MAD 的方法來計算出蛋白質晶體繞射波的相角(圖四)。
(3) 分子置換法
若是一個未知的蛋白質與另一已解出結構的蛋白質,在胺基酸序列具有30 %以上的一致性(identity),表示這兩個蛋白質的結構可能類似,可以利用分子置換法來計算出未知蛋白質的相角。利用已知蛋白質之結構分子帶入晶體中尋找旋轉及位移的可能位置,解析出結構。隨著蛋白質結構的增加,可以發現類似的蛋白質具有相同的折迭方式,而出現新的折迭的機率也相對減少,所以只要未知的蛋白質在蛋白質數據庫(Protein Data Bank, PDB )中,找到序列上具有同源性(homology)的已知結構時,即可在取得晶體繞射數據后,快速地運用分子置換法來解決相角問題。

三維結構模型之建立及修正
藉由電子密度圖的三維構形,可將每一個胺基酸依蛋白質序列建立蛋白質的起始模型。蛋白質的起始模型,常由于相角的解不夠完美,使計算出來的電子密度圖產生誤差,誤導模型的走向,因此需要做進一步的改善,稱為修正(refinement)。修正的目的在于進行立體化學(stereochemistry)(如勝 鍵鍵長、鍵角、胺基酸構形)優化的同時,減少計算與實驗繞射點強度的差異,用來評估的數值則是「剩余值(R-factor)」:

其中Fobs 及Fcalc 分別表示觀察值與計算值的繞射光振幅。盡可能將剩余值降到最低,直到進一步的修正無法減少其值為止,即達最終的蛋白質結構模型。大部分修正后可接受的剩余值約0.2 (20%)。但低的剩余值,并不代表其結構就是正確的。已有數個例子顯示在蛋白質結構上的某些部分不正確時,仍可能獲得較低的剩余值。因此Brünger (7)在1992 年提出一個交互驗證的程序,也就是取出部分的繞射點(建議為10%),排除于修正的程序之外,以對結構的正確性,提供個別的檢查,稱為「自由剩余值(R-free) 」,其計算方式同剩余值。除了剩余值外,分辨率是另一個判斷晶體結構可信度的重要數值。分辨率在蛋白質晶體結構中通常是定義為:可以分辨二個平面的最小距離。分辨率對模型的建構所造成的影響,可以直接由電子密度圖看出,在低分辨率(~6 ? )時,只能觀察到由α螺旋(α-helix)所形成的圓柱形密度圖;隨著分辨率提高(3 ? ~ 2 ? ) ,主鏈與支鏈結構就會出現,但個別原子仍無法由密度圖中看出,除非分辨率可以達到1.0 ? 或更高的分辨率。蛋白質結構所能達到的分辨率,主要是取決晶體內分子排列的整齊程度。小分子晶體內并沒有太多的水分子,所以常能得到分辨率高于0.5 ? 的繞射數據。但因蛋白質結構由長的勝 鏈所組成,其間又是由較弱的氫鍵及凡得瓦力所維系,造成蛋白質結構富有彈性,蛋白質分子與分子的堆棧也就沒有那么整齊。同時分子與分子之間的空隙由水分子來填補,也因這些空隙的水分子排列比較紊亂,所以蛋白質晶體繞射出的結果,僅有少數高分辨率晶體,一般蛋白質晶體結構的分辨率約在2.0 至3.0 ? 之間。

生物信息學簡概及教程(經典)

一、數據庫

注:Display中選FASTA形式,顯示原始的核苷酸數據,便于復制。

(2)dbEST
EST來源于mRNA
-基因片度(300-400bp,數據長度足以分析編碼的產物)或者全基因(已知)
-5’端或3’端的cDNA序列(EST)
-300-400bp single-pass sequence (可能有誤,如果要求<0.1%的錯誤率,需要測序8-10次)
-GenBank中71%以上的是EST序列。
http://www.ncbi.nlm.nih.gov/dbEST/index.html

(3)UniGene
來源于同一基因的非重復EST,組成基因序列群(contig)
注:不同實驗室各自采用poly(T)15法和隨機引物合成的cDNA(不完整),不同的cDNA的加工、拼接,形成重疊群(Contig) http://www.ncbi.nlm.nih.gov/UniGene/

(4)dbSTS (sequence tagged sites)
a.短序列(200-500bp) b.已完成染色體上的定位 c.可以與電子PCR相連用
http://www.ncbi.nlm.nih.gov/dbSTS/index.html

(5)dbGSS (genome survey sequence)
a.基因組短序列 b. cosmid、BAC、YAC外源插入片斷末端序列 c. Alu PCR 序列
http://www.ncbi.nlm.nih.gov/dbGSS/index.html

(6)HTG (high-throughput genome sequence)
尚未完成測序的重疊群(>2kb) 更新快?。?!
http://www.ncbi.nlm.nih.gov/HTGS/

(7)dbSNP
每100-300bp有一個SNP
http://www.ncbi.nlm.nih.gov/SNP/

(8)EMBL
http://www.ebi.ac.uk/embl/

(9)DDBJ
http://www.ddbj.nig.ac.jp/

(10)EPD (Eukaryotic Promoter Database) 啟動子數據庫
http://www.genome.jp/dbget/dbget2.html

2.蛋白質數據庫
(1)SWISS-PROT
http://us.expasy.org/sprot/
有詳細的注釋序列;與44個數據庫相互參照(cross-reference)
(2)TrEMBL (translation of EMBL)

(3)PIR (Promoter information resource)
http://www-nbrf.georgetown.edu/pir/
表明了結構域

(4)PRF (Promoter research foundation)
http://www4.prf.or.jp/

(5)PDBSTR (Re-organized Protein data Bank)
http://us.expasy.org/sprot/prosite.html
蛋白質的二級結構、α-碳位置

(6)Prosite
蛋白質家族、結構域
http://us.expasy.org/prosite/

3.結構數據庫
(1)PDB (Protein Data Bank)
http://www.rcsb.org/pdb/

(2) NDB (Nucleic Acid Database)
http://ndbserver.rutgers.edu/NDB/ndb.html

(3)DNA-bind Protein database
http://ndbserver.rutgers.edu/NDB/structure-finder/protein/index.html

(4)swiss-3D IMAGE
http://www.expasy.ch/sw3d/

4.酶和代謝數據庫
(1)KEGG (Kyoto Eneyclopedin of genes & genemes)
http://www.genome.ad.jp/kegg/

(2)PKR (Protein Kinase Resource)
http://www.sdsc.edu/kinases

5.文獻數據庫
(1)PubMed
http://www.ncbi.nlm.nih.gov/PubMed/

(2)OMIM
http://www.ncbi.nlm.nih.gov/Omim

(3)Agricola
http://agricola.nal.usda.gov/
農業相關的文獻

6.提交數據
GenBank
BankIt提交
網上直接提交,立即得到臨時編號(1周內提供Aceesion No.)
SequIn提交 下載軟件填寫表格,自動確定CDS、ORF和查找重復序列、查載體序列
用Update功能修改

二、檢索數據庫的方法
1、用關鍵詞或詞組進行的數據庫檢索 Text-based database searching
2、用和甘肅或蛋白質序列進行的數據庫檢索 Sequence-based database searching
關鍵詞:名詞;描述性詞、詞組;Accession number
體系:Entrz;Sequence retrieval system (SRS);Integrated database retrieval system (DBGET)
檢索須知
1、連接詞:AND OR NOT
用引號將兩個詞組成一個詞組 “disease resistance” 表示必須兩個詞先后順序連續出現;disease resistance 表示默認AND
2、wild card “*” 放在單詞后使檢索范圍擴大,但是專一性降低
Wan*=所有以Wan開頭的單詞 enzyme*=enzyme + enzymes 單復數同
(1)Entrz(NCBI)
優點:三種檢索體系中最容易操作的; 缺點:檢索范圍有限
8大類29個與Entrz體系相連的數據庫
1、Nucleiotide sequence database(6)
GenBank; SNP; Gene; Homologene; UniSTS; ProSet
2、Protein sequence database(1)
Proteins
3、Structure database(4)
Structure; PubChem; Compound; 3D-Domain; CDD
4、Taxonomy database(1)
Taxonomy
5、Genome database(2)
Genomes; Genome Project
6、Expression database(4)
UniGene; GEO Profiles; GEO database;GENSAT
注:數據庫來源于mRNA-cDNA-protein(更確切)
7、Literature database(7)
PubMed(文摘); PubMed central(全文); Books; OMIM; Journals; NLM catalog; MeSH
8、Others
PubChem substance; Cancer chromosome; PubChem BioAssay; SiteSearch
檢索方法:a、數據庫間的檢索 b、選擇數據庫 (可以限定檢索內容和時間范圍)

(2)SRS (Sequence Retrieval System)
http://srs.ebi.ac.uk/ 有不同的版本,可以下載。
EBI 優點:檢索面寬 缺點:檢索復雜
***類194個數據庫與SRS體系相連
檢索方法:a、快速檢索(操作簡單,檢索的數據庫有限,適用于明確目標的檢索。) b、深入檢索(檢索稍微復雜,檢索全部的數據庫,適用范圍廣泛的檢索。)

(3)DBGET
http://www.genome.jp/dbget/dbget2.html
優點:與KEGG相連,操作較SRS簡單 缺點:檢索面較窄
檢索方法:a、Basic search b、Advanced search

三、核苷酸和蛋白質序列為基礎的數據庫檢索 Sequence-based database searching
1、序列對位排列(sequence alignment)
2、將兩條或多條序列對位排列,突出相似的結構區域(分析功能、分析物種進化、檢測突變,插入或缺

失、序列延長、序列定位、基因表達譜分析) 3、序列對位排列分析種類
a、序列對庫對位排列分析 (從數據庫中尋找同源序列,主要涉及核苷酸庫和蛋白質庫)
b、兩序(多序列)列對位排列分析

(一)序列對位排列分析的基本原理
1、記分矩陣(scoring matrix)
a、蛋白質序列對位排列分析記分復雜
b、一致氨基酸記分不同 稀有氨基酸分值高,普通氨基酸分值低
c、相似氨基酸也積分,如D-E 用“+”表示氨基酸殘基性質相似

2、空位(間隔)罰分(gap penalty)
基因進化過程中產生突變(插入、缺失)
序列對位排列分析是允許插入空位
空位罰分涉及兩個參數:空位開放(gap opening) 空位延伸(gap extension)

(二)序列對庫對位排列分析
對待分析的序列對庫進行相似性分析;重復許多次的兩序列對位排列分析;從數據庫找出所以的同源序列
主要檢索體系:BLAST、FASTA、Blitz
1、基本概念
a、sequence identity 兩序列在同一位點核苷酸或氨基酸殘基完全相同
sequence similarity(or opositive) 兩序列在同一位點核苷酸或氨基酸殘基化學性質相似
b、Global alignment 完整的序列比較
Local alignment 兩序列相似程度最高的片斷相比較
c、Gapped alignment 為達到佳alignment序列中加入空位
Ungapped alignment 相比較的核苷酸或氨基酸殘基連續
d、Alignment score 衡量兩相比序列相似程度的標準
E (expect) value 期望得到的,完全由機會造成的,相當于或大于目前分值的alignment次數
Raw score 原始分,分值較大,兩個比較序列相似性程度較大
Bit score 采用統計學方法以原始分為基礎計算
E=10 ;表示方法5e-46=5×10-46 E越小越好
可以接受的標準:E=10-5 (重疊位置>40bp;identity>94%;遠大于雜交標準)
E=10-30 基因組分析,功能與序列中相似
E取決于alignment分值,相比較序列的長短和庫中數據數量
e、Low-complexity alignment region(LCR)
核苷酸序列中短的重復序列或由少數幾種核苷酸或氨基酸殘基組成的序列(如polyA)
數據庫中半數以上的序列至少帶有一處LCR
序列alignment 應避免LCR相互配對得分
BLAST用Filter功能避免比較LCR 用X和N分別代表LCR中的每個氨基酸殘基和核苷酸

2、BLAST(Basic Local Alignment Search Tool)
(1) Nucleiotide Blast (Blastn)
(2) Protein Blast (Blastp、PSI blast、PHI blast;Conserved domain (rpsblast)
(3) Translated blast (blastx;tblstn;tblsatx)
(4) Special Blast (Blast 2 sequence;bl2seq;VecScreen)
BLAST program
Blastn 用核苷酸序列檢索核苷酸庫
BlastP 用氨基酸序列檢索蛋白質庫
Blastx 用核苷酸序列通過6種閱讀框翻譯成不同的氨基酸序列檢索蛋白質庫
tblastn 將蛋白質序列譯成不同的核苷酸序列檢索核苷酸庫 tblastx 將核苷酸序列通過6種閱讀框翻譯成

不同的氨基酸序列檢索核苷酸庫(庫中的序列也被譯成不同的氨基酸序列)
Blast database
nr (nucleiotide blast) GenBank(無EST、STS、GSS、HTGS)
nr (protein blast) GenBank CDS translation + PDB + SwissProt + PIR + PRF
(1)BLASTN 序列的粘貼(或用GI號)-選擇database-Autoformat(full/semi)
(2)BLASTP
(3)PSI-blast (Position Specific Iterated Blast) 氨基酸序列檢索;重復循環檢索數據庫。 注意:

PHI和PSH同一網頁,需要設定。
(4)PHI-blast (Pattern Hit Initiated Blast) 蛋白質并帶有特殊的結構域(pattern)檢索庫中的

相似蛋白質(帶有同樣的特殊結構域或者這一臨近的序列與被查找的序列相似。) 與PSI-blast相連,可

以循環檢索。
(5)Translated Blast
(6) Conserved Domain Blast (rpsblast)

3、FASTA
www.ebi.ac.uk/fasta33/index.html
fasta3 用DNA序列檢索核苷酸序列,用氨基酸序列檢索蛋白質庫。
Fastx3/fastay3 將DNA序列及其互補的序列通過6種讀碼框翻譯成不同的氨基酸序列檢索蛋白質庫
注意:提交結果的形式與Blast不同(表格形式)

4、Blitz
http://www2.ebi.ac.uk/bic_sw/
能檢索出遠緣的序列;發現家族成員上可*;只用于蛋白質庫;慢!一般用email服務。

(三)兩序列對位排列分析
全局(貫穿整條序列長度);局部(相似性變大區段)
1、Blast 2 sequence 任兩條序列,允許空位。 blastn, blastp, tblastn(比較蛋白質序列1與核苷酸序

列翻譯成蛋白質序列2比較。 blastx 比較核苷酸序列(譯成蛋白質)(seq1)和蛋白質序列(seq2)

tblastx 兩條核苷酸比較(譯成蛋白質) 2、Global alignment program (GAP) 兩條序列,允許空位,

可以選記分的矩陣,全局對位排列,提交有格式。 >sequence 1 ATGTGAGGTCCCTGA >sequence 2

GCTGCAAGTCGTAGC 四、多序列對位排列分析和系譜分析 主要用于分析基因或蛋白質的進化;通過分析各

個基因和蛋白質序列的同源性確定它們在進化上的關系;分析基因或蛋白質的功能。 1、多序列對位排列

分析(Multiple Sequence Alignment) -兩條以上序列排列分析 -可以發展保守的結構域(重要的功能

位點?) -多序列允許插入空位 -Clustal W 目前公認的最好的序列alignment的方法之一(可以下載)

對要分析的序列輸入格式有要求 FAST(Pearson)格式 >sequence 1 ATGTGAGGTCCCTGA >sequence 2

GCTGCAAGTCGTAGC -分析方法(舉例) Bayor college of medicine (BCM)生物信息學主頁

http://dot.imgen.bcm.tmc.edu Multiple sequence alignment –Clustal W 1.8-結果 [o] full

options form 修改 -可以修改分析參數 一些參數的定義: (1)Gap opening penalty 增大數值使Gap

數減??; (2) Gap extension penalty 增大數值使Gap變短; (3)Weight transition penalty A-G轉

換成C-T 轉換(multiple DNA alignment) (4) Hydrophilic gap 選“on”將增加形成gap的機會