PDB-related databases and tools at NCBI (National Center for Biotechnology Information) Part I

20170424

自從1970年代,科學家應用X光結晶學(X-ray crystallography)和核磁共振 (nuclear magnetic resonance; NMR) 的實驗方法解析核酸、蛋白質或生物巨分子的三維立體結構並建立提供生物分子結構(3D structure)資訊的資料庫PDB (Protein Databank)[http://www.rcsb.org/pdb/home/home.do]。NCBI 於1996在其結構組(Structure group)中建構一個生物分子結構資料庫MMDB (Molecular Modeling Database) [https://www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.shtml],這個資料庫收集和維護管理發表在PDB的分子結構資訊。

除此之外,NCBI結構組也發展一些圖形化工具,包括結構-結構排列比對的工具VAST(Vector Alignment Search Tool)及VAST+ (VAST plus) (Nucleic Acids Res. 2014 42 Database issue:D297-D303) 、可操作觀看三維結構與分子序列的Cn3D及 iCn3D (“i see in 3D”) ,和探討蛋白質與蛋白質、小分子、核酸之間相互作用的伺服器IBIS (Inferred Biomolecular Interaction Server)( Nucleic Acids Res. 2012 40 Database issue: D834-D840),及其他。

首先,有許多方式可以搜索MMDB來獲得個別結構的資訊,例如經由基因及蛋白質的相關結構(Related structures)、期刊界面的右下方或直接填入PDB代碼均可連接至練習的結構案例4GED (MMDB代碼104273) ,也可以將蛋白質序列經由BLASTp並選擇PDB資料庫進行搜尋而獲得。

PDB1

每一個來自PDB資料庫的結構會給予它MMDB代碼並將此一結構連結至NCBI其他資料庫包括蛋白質、核酸、小分子(PubChem)等等,有些被分割為多個結構檔案的巨分子結構將它們合併為一個MMDB代碼 (譬如PDB代碼4V86與MMDB代碼99554皆為Adeno-Associated Virus Serotype 6是由PDB代碼3TSX、1VU0和1VU1合併而來),以及辨識其生物及結晶體不對稱的單位 (Biological Units and Asymmetric Units)。同時,定義結構分子間的交互作用 (原子間的距離設定為4Å),依照三維幾何特性(geometric features)推論其二維結構及結構區域(structure domains),連結這些區域至NCBI CDD資料庫(conserved domain database) 。

PDB2

最後,應用VAST演算法的幾何標準來辨識具有結構相似度的三維結構,這些結構鄰居是無法以蛋白質序列比較辨別的遠端同源物(distant homologs) ,進一步的進行蛋白質分子和功能演化的研究。VAST演算法是一種成對的比較(pairwise comparison)方法,利用它來預先計算(precompute)資料庫中的三維結構,比對的區域可以是跨越整體蛋白質分子或其一部分的區域,來發現一個或多個相似的3D結構區域的其他蛋白質。VAST所計算出的疊加結構(superimposed structures)及其對應的序列排列(sequence alignment) ,可以下載為cn3的檔案形式並使用獨立版本的(standalone version)Cn3D來操作分析。

VAST+(https://www.ncbi.nlm.nih.gov/Structure/vastplus/vastplus.cgi)則是VAST的延伸,用於比較三維結構的工具又有偵測具有相似大分子復合物的結構的功能
。它可以發現具有相似形狀的生物單元(biological units)的大分子結構,而不僅僅是那些分享類似形狀的單個蛋白質分子或片段(fragment)。VAST結構鄰居是包含類似形狀的單個蛋白質分子或三維結構區域的結構,VAST+結構鄰居是具有類似形狀的生物單位的結構。以上圖的4GED為例,點擊在右上角紅色框,將連接至VAST+資料庫中4GED的比對結果,點擊區段中domain2的紅色框則連接至VAST資料庫中4GED的比對結果。這兩者有何不同呢?

PDB3

VAST可以同時下載和檢視成對的或多個疊加排列的結構或區域,它已經將三維結構中個別分子(chain)或區域(domain)的相似結構計算完成,按壓 “Original VAST”將會打開如下圖的資料,例如4GED chain A 的 domain 2有545個相似結構。

PDB4

展開這個列表後,選擇其中的其他三個結構:5EJT A_2 (酵母菌Yeast Ferryl Cytochrome C Peroxidase)、3FJW A_2 (杏鮑菇Pleurotus eryngii Versatile Peroxidase) 和1IYN A_3 (煙草tobacco Ascorbate Peroxidase),將這些疊加結構及其對應的序列排列下載為一個cn3形式的檔案。

PDB5

另一方面,我們的案例4GED是包含兩個分子的複合物,VAST+偵測到它的相似結構共有627個,其中15個是兩個分子的複合物。選擇並過濾其中的464種真核生物,此時的列表是”Invariant substructure superposed” (refined alignment)的結果,亦即VAST+預先成對比對的資料。選擇執行 ”All matching molecules superposed” (initial alignment),數秒鐘後下方的列表會被更新。這個動作會得到不同的結構排列結果。點擊列表左側PDB代碼旁邊的+來展開被排列分子的詳細資料,VAST+僅提供成對的巨分子複合物或個別分子結構的疊加結構及其對應的序列排列,這些可以在新開啟的瀏覽器界面的iCn3D或下載為一個cn3形式的檔案經由Cn3D來操作分析。

PDB6

iCN3D (https://www.ncbi.nlm.nih.gov/Structure/icn3d/docs/icn3d_about.html)是在瀏覽器下啟用WebGL圖形語言(Web Graphic Language)的互動視窗,用來查看分析巨分子、蛋白質、核酸和化學物質的三維結構。它分為基本和進階(全功能)兩種版本,皆可在每一個MMDB結構資料視窗中打開。點擊旋轉圖標來加載基本版本到頁面,按壓滑鼠左鍵並拖動滑鼠來轉動(rotation) 、滑鼠中間的滾輪可放大或縮小(zoom in or zoom out)及按壓滑鼠右鍵並拖動滑鼠則移位(translocation)視窗中的結構,按住滑鼠右鍵就出現簡易的功能表及點選”Expost Image”就可在新視窗中看見此一圖像並儲存。

PDB7

iCn3D進階版本,可以在它的網頁中開啟一個空白iCn3D視窗,也可在每一個MMDB資料結構視窗中,點擊啟動圖標後開啟或在VAST+的結構排列輸出中選擇”iCn3D (Web)”之後,顯示在新開起的瀏覽器界面。

PDB8

iCn3D進階版本可以開啟已儲存或即時由網路中搜索的多種結構檔案格式,甚至經由蛋白質序列代碼(gi number)或PubChem代碼取得三維結構。下圖為選擇 FILE→Align,填入4GED和5CID,按壓 ”Invariant substructure superposed”的結果。圖中5CID的結晶體不對稱單元有兩個生物單元,4GED與5CID的生物單元排列比對最佳化的區段顯示為紅色和藍色,符合比對標準的殘基(residue)為238個胺基酸及RMSD為1.21Å,紅色的區段表示這胺基酸在兩個生物單元的序列中是一樣的,這些殘基也以紅色和藍色的大寫字元顯示在序列排列視窗。

PDB9

另一方面,下圖則是”All matching molecules superposed”的比對結果,這個比對是初始計算生物單元中兩個分子複合物,所以比對的結果含有355個胺基酸及RMSD為4.05Å。打開觀看分子交互(View Interactions),會出現中間交互作用的視窗。按壓Alt加點擊兩個結構中的A、B及相連的H(Heme或Heme C),再點擊”Display Only Selection”,結構視窗僅出現所選擇的分子。在交互作用的視窗中選擇4GED的A和H連線又靠近A的部分(橘色),就會顯現出4GED chain A最接近Heme的胺基酸並在序列中以黃色背景顯示。也可以點擊4GED chain A最接近H後選擇Select→by Distance→Display,來顯示與Heme分子交互作用的殘基,並可判斷這些殘基有哪些是具有一致性。

PDB10

例如這些殘基中,S202在兩個結構是有一致性又位於與Heme有交互作用的範圍之內,所以進一步的分析兩者之間的特性。首先按壓”Toggle Highlight”來取消之前的選取動作,在交互作用的視窗中選擇4GED中與A連線的H,Color→Atom和Surface→Type→by Van der Waals,然後再序列中使S202的背景顯為黃色,Style→Side Chains→Lines, Color→Atom及Analysis→Label→per Residue。改變選擇方式為Select→Picking with “Alt”+Click→Atom,Analysis→Distance→Measure,在視窗中點擊S202 side chain上的氧原子及Heme上的氧原子,然後再Measure the distance視窗中按Display,則顯示兩個原子之間的距離為2.6Å。再點擊S202 side chain上的氧原子,Analysis→H-Bonds to Select→Show,即出現數條綠色虛現是此一氧原子與其周圍其他原子形成的氫鍵,其中之一是與Heme上的氧原子形成。S202是再這兩個蛋白質具一致性又與Heme形成氫鍵,由此可判斷此殘基的重要性。

PDB11

感謝黃明經老師實驗室孫慶姝小姐提供以上寶貴資料,敬請期待Part II