基於合成生物學策略的酶蛋白元件規模化挖掘

未來,通過綜合電腦輔助設計、自動化合成生物構建、高通量測試等方法,設計和建設高度集成的工程化研究平臺,成為實現對酶蛋白資源進行系統化的研究和挖掘的重要方向。

生物製造以人工生物體系為催化劑合成工業化學品、藥物和功能資料,具有低碳迴圈、綠色清潔等特徵。酶蛋白是構建生物催化系統的重要功能單元,然而,由於缺乏準確預測序列-功能關係的方法,現時酶的理性設計仍面臨巨大挑戰。囙此,需要利用合成生物學工程化的思路和手段,從自然界中大規模挖掘新的酶蛋白元件,相關研究不但可以為開發工業酶製劑和構建細胞合成代謝提供優質元件,而且有利於快速獲得酶蛋白序列-結構-功能間的對應關係,為建立預測與設計模型提供基礎。本文針對酶元件工程化挖掘的關鍵技術進行綜述:介紹了電腦輔助設計的算灋和軟件,用於將資料庫中海量的酶蛋白序列按照實驗目的進行聚類分析和優先化排序;總結了規模化合成組裝、异源表達和功能篩選酶蛋白元件的高通量實驗科技;討論了如何綜合利用計算與實驗手段,系統性探索酶家族成員的催化效能。未來,通過綜合電腦輔助設計、自動化合成生物構建、高通量測試等方法,設計和建設高度集成的工程化研究平臺,成為實現對酶蛋白資源進行系統化的研究和挖掘的重要方向。

酶(enzyme)是一種重要的生物催化劑,可以促進生物體內化學反應在生理條件下高效和特异地進行,其化學本質是蛋白質或RNA。酶蛋白具有催化效率高、專一性强、作用條件溫和、環境友好等特點,被用於開發工業酶製劑和構建微生物合成代謝途徑,在醫藥、化工、能源、資料等領域有廣泛應用。例如,研究者從罌粟、褐鼠、假單胞菌、黃連和花菱草中挖掘酶蛋白,構建了包含18個酶催化步驟的合成途徑,實現了抗癌化合物諾司卡品在釀酒酵母中的高效生產。酶蛋白具有天然多樣性,截至2019年,NCBI(National Center for Biotechnology Information)資料庫中共有約4×108種特异性的蛋白序列;且隨著DNA測序科技的快速發展使得蛋白序列數量每24個月新增約1倍。在此背景下,對酶蛋白資源進行規模化的挖掘和開發變得極為重要和迫切。

傳統酶資源挖掘一般採用菌種篩選、功能宏基因組等科技。菌種篩選以催化活性為導向,首先對天然微生物進行培養與篩選,再通過分子生物學科技尅隆與鑒定相關基因,或者對微生物蛋白組進行選取、分離與組學分析,鑒定活性酶蛋白;功能宏基因組方法基於活性或DNA序列相似性,對表達宏基因組DNA片段的尅隆進行篩選,用於挖掘環境中的未培養微生物基因資源。兩類方法都依賴實體樣品,研發週期長,成本高,具有盲目性。

相較於傳統方法,合成生物學為酶蛋白的規模化研究提供了新的思路。基於工程學理念,合成生物學對生物體進行有目標的“設計—構建—測試—學習”,獲得具有特定功能的人工生命系統。就酶催化系統而言,合成生物學採用“自下而上”的策略,首先針對目標生化反應,從資料庫中識別酶蛋白的胺基酸序列;接著根據底盤細胞適配原則,設計並合成酶元件、調控元件的DNA序列,利用標準化DNA組裝方法構建蛋白表達模塊或合成代謝通路;最後在底盤細胞中進行轉化、表達與功能表徵。與傳統方法相比,基於合成生物學進行酶蛋白挖掘具有諸多優點,如不受生物實體的限制,可以利用生信方法針對性確定研究對象,提高新穎元件的開發效率;DNA合成可以進行序列工程化改造,從密碼子偏好、亞細胞定位等方面提高酶元件與底盤的適配性;基於標準化底盤、流程和實驗條件開展研究,有利於積累優質元件與數據,為人工智慧指導的酶元件挖掘等研究方法奠定基礎。

利用合成生物學對酶蛋白進行工程化挖掘,需要開發高通量的計算和實驗方法。現時缺乏從序列準確預測功能的方法,往往需要篩選大量候選序列,才能够識別自然界中催化目標生化反應的酶蛋白;同時,天然酶元件往往需要進行工程改造才能達到特定名額,如催化效率、專一性、底盤細胞適配性等。囙此,需要基於合成生物學理念開發工程化、標準化的科技和流程,從海量測序數據中識別、合成、表徵天然酶元件。針對酶元件的識別,傳統方法基於同源序列比對、蛋白質家族結構域比對等原理進行酶功能注釋。但是,序列相似性與功能之間並不總是完全對應,例如序列同源性達到98%的蛋白質可能具有不同的生化功能,而序列同源性很低的蛋白質也可能具有相同的生化功能。囙此,需要開發新的生物資訊方法,對酶蛋白從序列、三維結構、進化關係和蛋白互作等多個層面進行綜合性分析,根據實驗目的優先化排序用於功能驗證的候選序列。另外,不同來源酶蛋白在底盤細胞中進行异源表達時,可能存在密碼子偏好不同、無法折疊、穩定性低、輔酶因數及底物缺失等適配問題,需要進行工程化實驗設計(design of experiment,DOE),對DNA序列、調控元件、DNA組裝方法、蛋白表達條件等因素進行系統性探索和優化。綜上所述,對上百個候選序列的功能表徵和對實驗條件的系統性優化,對研究平臺的操作通量和自動化水准提出了新的需求。

本文作者對利用合成生物學方法高通量挖掘酶元件的研究進展進行綜述。介紹了相關的生信工具,已有文獻對多序列比對(multiple sequence alignment,MSA)、基因注釋、同源建模(homologous modeling)等內容進行了系統總結,本文著重關注聚類分析、可溶性預測、雜泛性預測等算灋。總結了對候選酶元件進行合成組裝、异源表達、功能篩選的高通量實驗科技。接著,討論了規模化挖掘科技在酶家族系統性研究方面的應用。搭建自動化合成生物學平臺開展酶蛋白高通量研究是未來的趨勢。

1電腦輔助設計用於高通量酶元件挖掘

高通量挖掘酶元件的一般流程如圖1所示。隨著測序科技的飛速發展,大量(宏)基因組和轉錄組得到解析,從中可以預測得到大量蛋白序列。與蛋白質結構域資料庫進行同源比對可以實現酶功能的初步注釋。同時,代謝多樣性提供了豐富的生物催化資源,各類初級和次生代謝產物合成途徑的預測和分析,也為酶元件的挖掘提供了幫助。但是,現時很難從酶序列出發準確預測其催化活性、底物選擇性、可溶表達等關鍵性質,需要開發新的算灋對候選元件進行優先化排序,提高功能篩選的成功率,利用最少的實驗資源探索相似酶蛋白的功能多樣性。下麵將從酶的聚類分析(clustering)和實驗驗證的優先化排序兩個方面進行介紹。

圖1酶蛋白資源高通量挖掘流程圖

1.1酶蛋白聚類分析

各種類型的蛋白質資源資料庫為酶元件的高通量挖掘提供了寶貴的資料,如錶1所示。截至2020年2月,蛋白質資源資料庫UniProt中儲存了約18億條蛋白質序列。其中大部分功能注釋是通過與CDD(conserved domain database),Pfam,CATH和FIGfams等資料庫中蛋白的結構域序列進行同源性比對而獲得;但至少50%的注釋並不精確甚至是錯誤的。囙此,需要綜合不同層次的功能注釋工具和實驗數據,幫助科研人員從序列、結構、進化和蛋白互作等多個層面對候選酶元件進行綜合分析。其中,酶蛋白聚類分析可以利用視覺化手段最大程度地利用文獻中實驗數據對未知蛋白質進行多個維度的功能注釋。下麵將重點介紹用於酶蛋白聚類分析的兩個方法:序列相似性網絡分析工具(sequence similarity network,SSN),以及側重蛋白質結構比對的CATH分析工具(Class,Architecture,Topology,Homologous superfamily)。

SSN是一種可顯示同源蛋白之間兩兩序列相似性關係的多元網絡。網絡中每個蛋白質由一個節點(node)表示;如果兩個蛋白質間具有超過序列相似性(blastE-value)的指定閾值,則代表它們的兩個節點通過一條邊(edge)連接;每個簇(cluster)中的節點至少有一條邊與簇中的其他節點相連。選擇合適的閾值是成功構建SSN的關鍵。SSN中的“節點内容”包含每個節點的各種資訊,比如系統分類,TrEMBL/SwissProt、PDB和GO等資料庫資訊的連結。這些資訊有助於用戶對SSN進行分析,通過設定合適的閾值將不同節點聚類。與多序列比對和系統進化樹(phylogenetic tree)方法相比,SSN能够快速地分析更大的蛋白質序列集,並能同時評估正交資訊。例如,映射到序列相似性的功能多樣性,有助於對酶家族中共亯顯著序列相似性的子群如何關聯進行推測。SSN分析也可揭示序列相似性較低但具有相似結構或功能的遠同源蛋白之間的關係,從而指導研究者優先探索序列空間內的未知區域。最初,Barber等利用Python語言編寫了Pythoscape工具用於生成SSN;但該工具需要基於伺服器集群在Unix環境下執行命令列腳本,並未得到廣泛的應用。為了推廣SSN的應用,研究者開發了用戶友好的EFI-EST網路工具(enzyme similarity tool),可以通過瀏覽器訪問(https://efi.igb.illinois.edu/efi-est/),使得用戶不需要專業程式設計知識即可快速生成SSN,其結果可以在開源的Cytoscape軟件中進行視覺化分析。

CATH工具可以揭示蛋白質結構域間的進化關係。基於空間結構的相似性,CATH識別wwPDB資料庫(Worldwide Protein Data Bank)中的蛋白質結構域,並將其聚類形成結構域超家族(domain superfamily)。由於僅有少數蛋白質(10萬餘種)具有實驗測定的三維空間結構資訊,CATH-Gene3D工具將具有代表性的結構域轉換成隱性Markov模型,形成基於一級序列的“指紋圖譜”庫;利用這一方法,共預測得到43萬個蛋白結構域,構成6000餘個結構域超家族。CATH進一步按照Class(二級結構的組成)、Architecture(二級結構形成的形狀)和Topology(二級結構連接的順序)的三個層次,分析結構域超家族間的進化關係。另外,FunTree資料庫進一步將酶蛋白的功能資訊,如生化反應物的結構、酶催化動力學數據等,與CATH結構域超家族分類進行綜合,從而綜合分析序列、結構、功能和進化關係。該資料庫現時已包含2340個結構域超家族、7萬個結構域和40萬個代表性序列。

錶1酶元件資源資料庫及連結

1.2實驗驗證的優先化

聚類分析對海量蛋白質資料庫進行初步篩選之後,仍存在大量候選序列,遠遠超出實驗驗證的能力。例如,軟海綿素B合成途徑包含47步不同的酶催化反應,假設每個步驟候選酶數量為100個,則需要構建和篩選的代謝途徑組合可達到約1094個。囙此,需要探索優先化標準與算灋對候選酶進行排序,提高功能驗證實驗的效率。

酶蛋白的可溶性表達和底物雜泛性(promiscuity)是優先化排序的重要標準。可溶性表達是對酶進行功能表徵的前提,現時已有一些基於能量計算、機器學習和進化分析的算灋對這一性質進行預測。例如,Wilkinson-Harrison溶解度模型可以預測蛋白序列在大腸桿菌中可溶性表達的概率。Vanacek等對脫鹵酶家族進行生信分析及優先化選擇之後,篩選得到20個候選蛋白序列進行表達實驗,最終有60%的蛋白質在大腸桿菌中實現可溶性表達,與模型預測得到的理論值一致。另外,需要根據實驗目的選擇具有不同底物雜泛性的酶。體外生物催化體系通常使用單一底物,使用高底物雜泛性酶不影響反應專一性,並且有利於將同一種酶應用於不同反應體系,縮短研發週期和成本。與此相反,高底物雜泛性的酶可能會在複雜的體內環境中產生副反應,從而消耗能量、輔酶、關鍵前體等細胞資源,或者導致毒性物質的積累,囙此構建細胞合成代謝途徑需要優先化選擇專一性較高的酶。現時,研究者已開發了一系列的算灋用來預測酶的底物雜泛性,例如:基於酶學分類對新型化學結構和反應預測的BNICE,基於理化性、單肽/二肽分佈、分子量、等電點、胺基酸序列資訊的SVM,基於分子電性參數、立體參數、疏水參數、取代基等參數的QSAR和基於蛋白質三維結構資訊的BioGPS等算灋。現時,未見系統性研究比較各類預測算灋的效率、準確度等效能;未來酶蛋白的規模化挖掘實驗可以為算灋評估提供數據支持。

構建生物合成途徑時還應考慮其他因素。例如,大部分算灋都傾向於選擇最少反應步驟的代謝途徑,以减少參與酶的數量;通過預測每一步催化反應的∆G來計算構建整條合成途徑的熱力學可行性;避免毒性中間產物的產生以及維持代謝流的平衡等。現時,研究者已經開發出多種算灋用於構建合成途徑中酶的優先化選擇。例如,GEM-Path可以預測在不同溶氧和生長條件下目的產物的產量;RetroPath則是將合成途徑中每一步催化反應所需候選酶的數量和酶的底物雜泛性等因素作為計算參數,從而指導每一步催化反應所需酶的挖掘;Genomatica等使用SimPheny Biopathway Predictor預測得到了10000個不同的、包含4~6個基因的1,4-丁二醇合成途徑,並結合酶催化反應步驟數、熱力學可行性和產量等標準進行優先化排序,縮減實驗量,最終得到了具有工業化價值的菌株。

2酶蛋白挖掘的高通量實驗科技

由於無法從胺基酸序列準確預測酶的催化功能,需要對大量候選序列進行實驗表徵,篩選出與目標效能最為接近的酶元件。另一方面,由於候選酶蛋白往往來自於不同物種,需要系統性優化密碼子、調控元件、細胞培養條件等實驗方案,提高酶蛋白與异源底盤的適配性。為此,研究者開發了一系列高通量科技用於酶蛋白的規模化表徵,以及實驗方案的組合式優化。下麵分別就分子克隆、蛋白質表達和功能篩選等三個環節進行介紹。

錶2基因高通量尅隆、組裝方法

2.1高通量分子克隆

高效可靠的DNA組裝方法對於實現候選酶元件的規模化尅隆至關重要,並且可以針對表達載體、調控元件、融合蛋白等因素進行組合式優化,提高异源表達的成功率。下麵將介紹滿足根據不同實驗需要的高通量分子克隆方法(錶2)。針對酶元件DNA序列的優化策略,如密碼子優化、酶切位點移除等,已有文獻進行系統性總結,本文不再複述。

2.1.1限制性內切酶尅隆系統(restriction enzyme-based cloning)

近幾十年,限制性內切酶尅隆方法已廣泛地應用於分子生物學實驗當中,包括BioBrick、Flexi、Golden Gate等尅隆方法。在使用常規的限制性內切酶尅隆方法時,插入片段和目標載體都需要經過限制性內切酶處理,操作時需要避免目的基因內部有使用的內切酶識別位點序列,囙此較難實現多基因的平行操作。稀有限制性內切酶SgfⅠ和PmeⅠ(SgfⅠ:GCGATCGC;PmeⅠ:GTTTAAAC)的發現及Flexi尅隆系統的開發,使內切酶切系統具有了高通量應用的可行性。SgfⅠ和PmeⅠ識別位點序列在許多模式生物中出現頻率很低(人1.2%,鼠1.2%,釀酒酵母2.96%,擬南芥2.4%,大腸桿菌6.35%),而且該方法可以將基因序列在不同的Flexi載體之間實現簡單轉換,不需要重新測序。Nagase等使用Flexi系統實現了人類基因組中的1929個基因的高通量尅隆,證明了該系統在操作中的良好應用性。

Golden Gate組裝方法基於Ⅱs型限制內切酶在同一反應體系中進行酶切和質粒組裝。Ⅱs型限制內切酶,如BsaⅠ、BsmBⅠ等,在其識別序列的外側進行切割產生4bp的黏性末端。囙此,只需在相鄰片段上合理地設計4bp的互補序列,就可進行無痕組裝。理論上,4bp的序列可以組成256種不同互補區,而且不依賴於相鄰片段之間的同源性,囙此可實現多片段快速組裝,且不受重複序列的影響;並且,通過多種限制性內切酶的替換使用,可以實現標準化基因元件的多輪逐級組裝(如調控和催化元件、單一酶蛋白表達框、代謝通路等)。值得注意的是,4bp介面序列及其組合對於組裝的效率、準確性等有很大影響,需要利用經驗和算灋優化介面序列設計(如http://cuba.genomefoundry.org/home)。基於這一組裝方法,趙惠民團隊開發了類轉錄啟動因數感受器核酸酶(transcription activator-like effector nucleases,TALEN)的自動化組裝方法,可以一步組裝15個DNA片段,基於機器人平臺每天可以合成超過400個TALEN蛋白對,成功率超過96%。此外,研究者已開發了多個基於Golden Gate的自動化DNA組裝方法。與Flexi方法類似,該組裝方法的一個限制因素是需要移除目的基因序列的BsaⅠ、BsmBⅠ等酶切位點。相較於BsaⅠ或BsmBⅠ,SapⅠ的識別位點序列出現的頻率更低,具有更好的通用性。此外,趙國屏課題組在2013年建立了一種新型Golden Gate組裝方法,稱為MASTER連接法(methylation-assisted tailorable ends rational ligation method)。該方法使用同時具有Ⅱm型和Ⅱs特性的內切酶MspJⅠ,MspJⅠ只能識別甲基化的4bp位點,mCNNR(R=A或G),並在識別位點外側進行切割,囙此不受到目的序列是否包括MspJⅠ酶切位點的限制。

2.1.2同源重組尅隆系統(sequence homology-based cloning)

同源重組尅隆組裝依賴於載體和連接片段兩端的同源序列。該方法簡便高效,既可用於單片段的尅隆,也可用於多片段與載體的組裝,且不受到酶切位點的限制。該系統主要包含Gibson、Gateway、Echo Cloning、Creator等體外酶法組裝,以及利用酵母高效同源重組機制的DNA assembler等胞內組裝方法。其中,Gateway方法在高通量尅隆組裝實驗中應用最為廣泛,該方法利用λ噬菌體與大腸桿菌的染色體之間發生的位點特异性的重組綜合[attB-attP(BP反應)→attL-attR(LR反應)],尅隆效率可達95%以上。其最主要優勢是完成入門尅隆之後,目的基因序列可以通過LR反應高效、簡便地連接至其他目的載體。但是,當目的基因序列的長度超過3000bp時,連接效率會降低。另外,研究者也基於Gibson assembly、DNA assembler等技術開發了高通量的DNA組裝方法。這一類尅隆系統的共同局限,是在組裝含有重複性序列的片段時,容易由於序列內部的非特异性同源重組導致組裝失敗。

2.1.3基於寡核苷酸的架橋法尅隆系統(bridging oligo)

De Kok等基於連接酶迴圈反應(ligase cycling reaction,LCR)開發了新型的DNA序列組裝方法。通過設計與相鄰DNA的兩端序列互補的單鏈橋接寡核苷酸,在較低溫度下進行退火,從而使上游片段的3'端與下游片段的5'端連接,將2個DNA片段組裝成單個的線性片段。在接下來的迴圈中,以組裝好的線性片段為範本來組裝互補鏈,通過多次熱迴圈,可以將線性DNA片段組裝成環形質粒,並轉化大腸桿菌感受態進行擴增。De Kok等利用該方法成功地將12個DNA片段連接至20kb的載體上。

2.1.4基於CRISPR的尅隆系統

CRISPR(Clustered Regularly Interspaced Short Palindromic Repeats)是存在於原核生物中的獲得性免疫系統。Cpf1蛋白隸屬於Ⅱ類Ⅴ型CRISPR系統;相較於Cas9蛋白,Cpf1具有相似的基因編輯效率、蛋白質更小、具有較低的脫靶效應和較好的可操作性。由單個crRNA(CRISPR RNA)引導,Cpf1結合在富含胸腺嘧啶的PAM(photospacer adjacent motif)位點相鄰並與crRNA互補的DNA序列,切割靶標DNA互補鏈的23比特和非互補鏈的18比特,從而形成5 nt黏性末端。Cpf1的切割位點受crRNA中靶向spacer序列長度的影響:當spacer序列長度大於等於20bp時,Cpf1傾向於切割非互補鏈的18比特;spacer序列長度小於20bp時,Cpf1傾向於切割非互補鏈的14比特,從而形成8 nt的長黏性末端。基於這一特性,研究者開發了CCTL(Cpf1-assisted Cutting and Taq DNA ligase-assisted Ligation)方法用於大DNA片段的體外編輯。利用17 nt長度的crRNA spacer,研究人員成功將放線菌紫紅素合成基因簇actⅡ-orf4基因的啟動子進行了原位替換,效率達到70%以上。進一步,研究者對Cpf1進行了改造,使其可以識別60種不同的PAM位點,將其靶向範圍擴大了4倍,大大新增了Cpf1可以靶向的序列範圍。

2.2高通量蛋白表達

酶蛋白表達是一個複雜、高成本和耗時的過程。蛋白質表達的底盤系統包括原核細胞(如大腸桿菌和枯草芽孢杆菌)、真核細胞(如酵母、昆蟲細胞和哺乳動物細胞)以及無細胞(cell-free)蛋白合成系統。本文重點介紹大腸桿菌表達系統和無細胞表達系統。

大腸桿菌表達系統是經典的重組蛋白表達系統,具有操作簡單快捷、培養週期短、成本低廉、遺傳背景清楚等優勢,使其成為研究者首選的蛋白表達系統。傳統的大腸桿菌蛋白表達、純化和檢測的實驗操作都由研究人員親自動手完成,不僅煩瑣,還耗費大量的等待時間。隨著自動化科技成本的降低以及智慧程度的提高,採用自動化機器替代人工,使得大腸桿菌蛋白表達過程可高通量、自動化地進行,而且操作更精准、更標準化。現時,國內外已搭建起若干個全自動高通量篩選平臺。例如,德國格賴夫斯瓦爾德大學擁有一套全自動化高通量篩選平臺用於大規模的蛋白質工程篩選。它以96微孔板等作為實驗載體,通過自動化作業系統Momentum和Agilent VWorks 9軟件對實驗過程進行程式設計,自動化進行重組質粒轉化、細胞培養、蛋白質表達與純化以及蛋白質性質表徵等。

此外,無細胞蛋白質合成體系逐漸發展為一項快速、高效的體外合成蛋白質的科技手段。該科技是以外源的DNA或mRNA為範本,通過補充底物和能量物質,在細胞抽提物提供的酶系作用下完成蛋白質的體外表達。細胞抽提物可以來源於大腸桿菌、兔網織紅細胞、昆蟲細胞和哺乳動物細胞等。該系統能够以PCR產物作為線性範本,囙此無需煩瑣的尅隆、連接、轉化、細胞裂解和蛋白質選取等步驟。且由於該系統不存在活細胞,可用來表達在胞內系統中難於表達的毒性蛋白質。傳統的胞內蛋白質表達系統,從基因克隆、質粒轉化、宿主菌培養、目標蛋白質表達和蛋白質分離純化,一般需要2~3周左右的時間。無細胞蛋白質合成體系,只需要簡單的基因擴增、無細胞蛋白質表達以及簡單的分離純化等步驟,整個過程一般只需要3~4天,表達週期大大縮短並節約相應的經濟成本。例如,Nakano等開發了一種完全在體外進行的蛋白突變體庫構建與篩選的高通量方法。利用無細胞蛋白質合成體系、PCR體外擴增、微孔板反應並結合ELISA篩選,對抗人血清蛋白的單鏈可變片段進行了體外篩選,成功篩選到具有抗體結合功能的蛋白質片段。商業化的96孔和384孔板是最為常用的較高通量的實驗載體,能方便地使用與之配套的酶標儀等儀器進行檢測。然而,由於受到微孔板孔數的限制,商業化微孔板中的無細胞蛋白表達難以滿足通量更大的研究,囙此,Angenendt等定制了一種孔最大容量為1.5μL的1536孔規格的微孔板。進一步,利用綠色螢光蛋白與β-半乳糖苷酶作為檢測蛋白,研究者成功將微孔板中無細胞反應體系縮小到100 nL,而且反應體系的濃度稀釋10倍後反應依然能進行。

表達不同來源的酶蛋白時,通常需要針對DNA/胺基酸序列、助溶融合標籤、調控元件强度、細胞培養條件等進行系統性、組合式優化;囙此,需要開發高通量方法評估不同實驗條件下酶的可溶性表達結果。聚丙烯醯胺凝膠電泳(polyacrylamide gel electrophoresis,PAGE)和蛋白質印迹法(Western blot)是檢測蛋白質是否可溶性表達的常規方法;但其過程耗時煩瑣,很難進行高通量操作。Split GFP技術提供了一種操作簡便、易於自動化的可溶性表達檢測方法:將GFP11片段(約15個胺基酸)融合表達在目標蛋白質的氮端或者碳端;改造後的目標蛋白質與包含GFP其餘序列的重組片段(GFP1~10,約200個胺基酸)在體內或體外環境相遇時,可以結合產生綠色螢光,且螢光强度與目標蛋白質的可溶表達量呈正相關。這一科技為快速篩選不同實驗設計方案,從而優化酶元件在底盤體系中的可溶性表達提供了基礎。

2.3酶催化功能的高通量表徵

2.3.1酶反應分析方法

酶促反應動力學(enzyme kinetics)分析是對酶蛋白進行功能表徵的覈心手段。光譜、質譜和電化學方法是高通量酶動力學分析的常用方法。對於少數反應物具有特徵光學性質的酶促反應而言,可以通過監測吸光度、螢光等訊號跟踪反應行程。然而,大多數生化反應的底物或產物不產生特徵的光學訊號,需要通過設計酶反應分析方法(enzyme assay),如利用偶聯反應、生物感測器等手段將反應物的濃度資訊轉化成儀器可檢測的光、電等訊號。例如,琥珀酸輔酶A合成過程中伴隨著ATP的水解反應,形成ADP和正磷酸鹽,研究者可以利用鉬酸與正磷酸鹽生成藍色顏料來定量琥珀酸輔酶A合成酶的效率。另一方面,生物感測器可以利用轉錄因數(transcriptional factor,TF)、工程螢光蛋白、核糖核酸適配子(RNA aptamer)等功能元件識別細胞內特定代謝物,並進一步通過基因調控將目標分子的濃度信息定量轉化為報告基因的表達量。

電化學感測器可檢測電極表面生化反應導致的電流變化,具有很高的檢測靈敏度和選擇性,並且可進行微型化處理。該類型的感測器主要由生物識別元件以及可將生物訊號轉換成電化學訊號的感測器組成。研究者開發了具有96個絲網印刷電極(96 screen-printed electrodes)的系統,用於分析半乳糖氧化酶產生的H2O2,對酶反應的檢測更加靈敏、快速。電極資料是影響感測器的主要因素,根據電極資料的不同分為電流計、電位計、電導計和阻抗計。現時新型的電化學感測器採用納米材料,如碳納米管、金屬和金屬氧化物納米顆粒、矽納米顆粒和半導體材料納米顆粒等。

與光學、電化學等分析方法不同,質譜(mass spectrometry,MS)基於離子的質荷比(m/z),可以對反應物進行無標記(label-free)的定性與定量測定,對於酶反應分析具有更好的普適性。但是,檢測樣品進入質譜之前需要經過耗時的色譜分離,限制了質譜篩選的通量。現時,基於新型質譜儀器設計,通過雷射、微流控或聲學科技將分析物直接引入質譜儀,可以在幾秒鐘內完成單個樣品的分析。例如,基質輔助雷射解析解離質譜(matrix-assisted laser desorption/ionization MS,MALDI MS)可以利用雷射取樣,快速分析靶板表面的酶反應陣列,具有樣品製備簡單、高耐鹽以及廣泛的生物分子覆蓋性等特點。de Rond等基於MALDI MS開發了PECAN方法,完成了P450BM3突變庫的高通量篩選鑒定。電噴霧質譜(electrospray ionization MS,ESI MS)與微流控液滴系統聯用可以進行高通量的分析與分選,在小分子分析方面相較MALDI更具優勢,該科技已經應用於蛋白質工程、藥物開發和診斷等研究工作。另外,基於質譜高解析度的特點,可以開發代謝組學方法,同時對數百種代謝物進行分析。基於這一理論,將候選酶與細胞粗提物共同孵育,通過監測反應前後的質譜訊號變化,可從大量代謝物中快速鑒定反應底物與產物;進一步結合化學計量學和資料庫分析,實現酶的高通量篩選與功能鑒定。

2.3.2高通量樣品處理與分析科技

基於以上酶反應分析手段,可以利用自動化移液、流式分選和微流控液滴等科技提高酶功能表徵的通量和準確性。

自動化移液工作站通常由一個工作檯面、移液機械臂、抓手機械臂、相關功能模組和配套電腦構成。常規的移液工作站有8通道或96通道的移液機械臂,可以實現96孔板以及384孔板的移液操作。通過合理的程式設定,可實現短時間內全自動處理大規模液體生物樣本,有效提高實驗的準確性、穩定性和效率。此外,在工藝流程中綜合菌落挑取儀、酶標儀等功能模組,可以賦予移液工作站更加豐富、個性化的用途。例如,前述德國格賴夫斯瓦爾德大學平臺通過綜合移液工作站和酶標儀,發展了高通量酶活檢測方法,實現了單加氧酶、轉氨酶、脫鹵素酶和醯基轉移酶等文庫大規模篩選。

細胞為酶促反應提供天然環境,並將酶蛋白與其編碼基因進行物理偶聯;結合流式細胞螢光分選(fluorescence-activated cell sorting,FACS)以及二代測序科技,可以快速建立酶序列-功能間的對應關係。對於細胞內代謝物或具有滲透性的胞外產物,可以將酶反應與螢光蛋白的表達、折疊或運輸過程偶聯;針對非滲透性底物,可以利用表面展示科技將酶蛋白表達在細胞表面,並利用分子互作將反應物精巧固定於細胞表面,從而基於螢光探針和反應物的結合强度進行酶活篩選。

對於胞外游離產物,無法利用傳統FACS科技進行分析,需要結合微流控液滴科技對單細胞及其周邊微環境進行分析。每個細胞被分裝在微流體元器件中以每秒數千滴的速度產生的獨立水油小液滴中,其體積大小由通道尺寸和流體流速控制,通常從納昇到皮昇不等。集成微流體分選儀可在103Hz頻率下篩選高螢光液滴,並根據用戶定義的分選標準施加電場,將包含單細胞的液滴轉移到收集室或廢物室中。微流控晶片具有高靈敏度、定量讀出和高準確性等優點,通過液滴注射或液滴融合可以實現多步驟酶催化反應。結合先進的螢光標記分選科技、拉曼光譜和質譜等,可以顯著提高基於液滴的微流體系統的篩選效率。此外,微流控科技也可應用於宏基因組中催化元件的高通量挖掘。

3高通量酶元件挖掘在酶家族研究中的應用

酶家族(enzyme family)是由序列、結構、功能、進化方面具有相似性的蛋白質組成的集合。隨著高通量(宏)基因組測序科技的發展,資料庫中蛋白質序列的數量呈指數增長,對功能注釋和預測提出了重大挑戰;而對酶家族特徵資訊的選取,有助於充分利用已有實驗數據對未知序列的功能進行歸屬。利用合成生物學手段系統化探索酶家族的序列-功能關係,是規模化挖掘新型酶元件的一個重要途徑。

綜合利用聚類分析和實驗驗證優先化算灋,有利於提高對酶家族進行高通量挖掘的效率。鹵代烷烴脫鹵酶(haloalkane dehalogenases,HLD)採用水解型脫鹵機制催化鹵代有機化合物的碳-鹵鍵的斷裂,在環境污染物降解、手性化合物合成、分子成像等方面具有應用潜力。利用Position-Specific Iterated(PSI)-BLAST比對,Vanacek等從NCBI核酸測序資料庫中識別出5661個可能的HLD。為了從數千個候選序列中快速篩選出最為相關的HLD,研究者首先採用了類似SSN的成對同源比對聚類方法,初步篩選出953個較為可信的HLD序列。接著,基於多序列比對去除了117個不完整序列和178個胺基酸水准的同義序列。對剩餘的658個HLD序列,研究者製定了優先化原則——序列多樣性、物種來源/生境多樣性、活性位點結構多樣性、與已知HLD低同源性和高可溶性等,綜合利用同源結構建模、可溶性預測等生信工具,研究者選擇了20個HLD蛋白進行實驗表徵,並最終實現了8種HLD在大腸桿菌底盤中的可溶性表達(圖2)。結果顯示,這8種HLD來源於不同的細菌、真核生物和古菌,表現出非常多樣化的底物範圍和特异性、最適溫度範圍(20~70°C)和最適pH範圍(5.7~10),並且發現了迄今催化活性最高的一個HLD蛋白。這項研究表明,綜合利用聚類和優先化算灋,有利於從酶家族中快速挖掘具有新穎功能和效能的酶元件。

圖2脫鹵酶挖掘、優先化及多樣性催化功能表徵

許多酶家族成員雖然具有相似功能,但在序列和結構水准上具有多樣性。例如,胞質谷胱甘肽轉移酶(cytosolic glutathione transferase,cytGST)在新陳代謝和防禦氧化損傷中具有關鍵作用;其超家族包含13000多個非冗餘序列,催化多種反應類型(具有超過140個Enzyme commission編號),但催化機理並不完全清楚。為了系統性研究cytGST酶家族,Mashiyama等首先利用Cd-hit算灋將資料庫中的13493個cytGST按照50%的序列同一性(50% sequence identity,ID50)進行聚類,選取出2190個具有代表性的序列;針對這2190個ID50節點,研究者對衡量序列相似性的E-value進行了步進優化,並最終選定1×10−25E-value閾值構建SSN網絡,包含約30個主要的簇和超過60個較小的簇或單個節點,其中有23個簇中至少有一個成員被實驗證實有GST活性。在聚類分析的指導下,研究者從不同的簇或單個節點中優先選擇了857個候選基因進行實驗驗證。高通量分子克隆、蛋白質表達與純化、結晶等實驗在紐約SGX結構基因組學研究中心(New York SGX Research Center for Structural Genomics)開展;利用自動化移液工作站等高通量手段,該研究中心可以每月製備120個以上的超純蛋白質樣品,每年解析100~200個蛋白質晶體結構。最後,共有230個候選序列在大腸桿菌中被成功表達純化,其中27個蛋白質的37個3D晶體結構得到解析。通過篩選175個不同的底物,研究者發現了82個新的具有GST活性的酶,將具有GST活性的簇從原來已知的23個新增至35個,並發現少數成員具有非常罕見的還原性脫鹵活性。研究者將新發現的蛋白質與文獻報導已知具有GST活性的174個蛋白質綜合分析,將其序列、結構、催化機理等資訊與SSN網絡的結構進行映射,用以生成序列-結構-功能關係的全域視圖。結果表明,53%的cytGST具有高度底物專一性,只與1個底物發生反應;而7%的酶可以催化至少6個底物的轉化。作者還發現,如果通過催化機理而非序列或結構相似性建立相關網絡,可以將cytGST家族已知15個催化功能中的14個聯系起來;這一觀察也再次印證了僅靠序列或結構同源性無法準確預測功能相似性的現象。這一研究是利用合成生物學方法規模化挖掘酶蛋白的經典案例,證明了採取多層次聚類分析的必要性,以及酶挖掘過程中高通量實驗驗證的不可替代性。

4展望

近年來,資料庫中蛋白序列的指數性增長以及生命科學前沿技術的快速發展,為人們提供了豐富的生物資源。如何充分利用全球共亯的生物資源數據,對資料庫中的酶資源進行高通量的挖掘利用,是研究者面臨的重大機遇和挑戰。綜合上文所述,研究者開發了一系列算灋、資料庫、高通量實驗科技,應用於酶蛋白的高通量挖掘,有效地推動了酶製劑和細胞工廠在生物製造方面的應用。

但是,現時仍然缺乏高度集成的工程化研究平臺,應用合成生物學理念和科技對酶蛋白資源進行系統化的研究和挖掘。近年來,在全球範圍內已建成或在建多個大型合成生物學研究基礎設施,將自動化技術應用在合成生物學“設計—構建—測試—學習”的各個研究環節。這些基礎設施包括美國伊利諾伊大學的iBioFAB(Illinois Biological Foundry for Advanced Biomanufacturing)、美國能源部的Agile Biofoundry、英國愛丁堡大學的Edinburgh Genome Foundry(EGF)等。2019年,8個國家的16個隸屬於公共研究機構的合成生物設施於2019年成立了“全球合成生物設施聯盟”(Global Biofoundry Alliance,GBA),旨在加强設施間的合作溝通,將智慧製造的理念引入合成生物學。

依託這些設施平臺,研究人員開發了不同程度的自動化流程進行酶蛋白挖掘。例如,本文作者在伊利諾伊大學趙惠民教授團隊參與設計、搭建、運行了學術界首個全自動合成生物設施iBioFAB,開發了基於Golden Gate assembly的自動化DNA組裝方法,實現了大腸桿菌和釀酒酵母的自動化轉化、培養、篩選等操作,建立了自動化樣品前處理流程對代謝物進行快速質譜表徵,從而對酶蛋白、代謝通路、細胞工廠等合成生物體系的高通量工程構建與優化;中國科學院天津工業生物研究所團隊基於自動化平臺,實現了谷氨酸棒狀桿菌的高通量基因編輯;如前所述,德國格賴夫斯瓦爾德大學開發了酶突變庫自動化構建和篩選的流程,實現了單加氧酶、轉氨酶、脫鹵素酶等酶蛋白的定向進化研究。另外,中國科學院深圳先進技術研究院正在牽頭建設“深圳合成生物研究重大科技基礎設施”,建成後將是我國首個將軟件控制、硬體設備和合成生物學應用進行綜合的大型規模化合成生物製造系統,作為開放共亯平臺服務我國合成生物學的科研與產業用戶。通過實現生物設計、工程DNA合成與組裝、底盤系統轉化與培養、催化功能測試等環節的自動化運行,這些工程化平臺可以高效集成酶蛋白高通量挖掘所需的資料庫、算灋、合成生物工藝和硬體儀器設備,從而實現優質酶催化元件的規模化挖掘,積累酶序列-功能關係的高品質定量數據,為實現酶蛋白的理性設計奠定基礎。

在未來的研究中,基於合成生物學的酶元件挖掘研究可在藥物、精細化工等高附加值分子的研究與生產等熱點、難點領域發揮重要的作用。例如,參與內源性物質和藥物、環境化合物等外源物質代謝的P450酶及其抑制劑的挖掘、篩選、功能鑒定;非天然和較難獲得的化合物的從頭生物合成,包括對未知催化途徑酶的挖掘與改造、生物途徑及化學途徑的綜合、底盤細胞的改造、人工合成途徑與底盤細胞的適配等方面。而依託工程化合成生物研究基礎設施,可以計算設計並合成表徵催化不同反應類型、適應不同實驗條件的酶蛋白序列,從而建設包含功能特性清晰、符合組裝標準的元件實體庫。為了實現以上願景,需要將生信分析與實驗表徵深度綜合,通過介面友好的資料庫、算灋與網站,實現酶元件及其表徵數據的査詢、比對與二次計算,從而推薦已有元件或待合成表徵的對象;開發自動合成生物實驗科技,開展自動化高通量的元件挖掘、添加、存儲和利用等操作,形成酶催化數據的信息化體系與元件共亯平臺。未來,相信合成生物學提供的工程化思想和能力可以大幅提高酶蛋白挖掘研究的通量與效率,從而加速生物製造理念的工業化實現。

原文刊載於《合成生物學》期刊

本文版權歸原作者所有,文章內容不代表平臺觀點或立場。如有關於文章內容、版權或其他問題請與我方聯系,我方將在核實情况後對相關內容做删除或保留處理!

本文標題: 基於合成生物學策略的酶蛋白元件規模化挖掘
永久網址: https://www.laoziliao.net/doc/1656057613817248
相关資料
高海拔宇宙線觀測站測定了標準燭光的超高能段亮度、發現拍電子伏伽馬輻射挑戰理論極限
國家重大科技基礎設施“高海拔宇宙線觀測站”精確量測了高能天文學標準燭光的亮度,覆蓋3.5個量級的能量範圍,為超高能伽馬光源測定了新標準。這個標準燭光就是由宋朝的司天監發現並記錄的“客星”經千年演化而形成的著名天體——蟹狀星雲。相關結果於美國
標籤: 電子 天文 科學 科普
上海光機所在等效漸變包層折射率光子晶體光纖設計研究方面取得新進展
近期,中國科學院上海光學精密機械研究所高功率雷射單元科技實驗室研究團隊在等效漸變包層折射率光子晶體光纖設計研究方面取得新進展。團隊圍繞新型光纖雷射器和非線性光纖光學研究中對特殊色散光纖的需求,創新提出等效漸變包層折射率光子晶體光纖的新概念,
標籤: 光子晶體 光纖色散 色散 科普
遺傳所薑丹華研究組揭示高溫誘導植物熱形態建成的錶觀遺傳調控機制
全球氣候暖化嚴重影響植物生長發育和分佈,威脅糧食安全。當環境溫度升高時,H2A.Z從溫度響應基因的染色質上去除,並往往伴隨著基因的表達啟動,從而促進植物在高溫下的形態建成。但H2A.Z從特异位點上去除並啟動基因表達的分子機制仍不清楚。這一結
標籤: 植物 錶觀遺傳 科普 調控
古椎所阿爾瓦雷斯龍類快速小型化和適應性輻射研究進展
然而,另一類同樣經歷體型小型化的獸腳類恐龍——阿爾瓦雷斯龍類恐龍,此類恐龍被發現以來一直缺少詳細研究。這樣,可以避免標本個體發育差异對體重估計結果的影響,為進一步準確的進行阿爾瓦雷斯龍類體型演化研究鋪平了道路。
標籤: 恐龍模型 科學 阿爾瓦