上海交大歐竑宇研究組開發細菌全基因組規模預測IV型分泌系統效應蛋白的新軟件

IV型分泌系統效應蛋白能够影響真核細胞的基因表達和信號轉導,在病原細菌致病過程中起到重要作用。

近日,上海交通大學生命科學技術學院微生物代謝國家重點實驗室在生物資訊學頂級刊物《Briefings in Bioinformatics》(IF:11.622)上發表題為“T4SEfinder: a bioinformatics tool for genome-scale prediction of bacterial type IV secreted effectors using pre-trained protein language model”的研究論文。該文將人工智慧方法應用於細菌IV型分泌系統效應蛋白預測的場景,提供了一款新的、適用於細菌全基因組規模的預測軟件。生命科學技術學院碩士生張昱朦和張陽明為該論文的並列第一作者,生命科學技術學院歐竑宇教授和澳大利亞莫納什大學生物醫學發現研究所宋江寧副教授為該論文的共同通訊作者。

細菌IV型分泌系統分泌系統(type IV secretion system,T4SS)是由多個蛋白組件構成的跨膜裝置,不僅能够介導DNA接合轉移,還能將效應蛋白精准轉運到真核或原核細胞中。IV型分泌系統效應蛋白(T4SE)能够影響真核細胞的基因表達和信號轉導,在病原細菌致病過程中起到重要作用。前期工作中,歐竑宇研究組構建了T4SS開放資料庫SecReT4,通過文字挖掘和人工校正,系統地收錄了實驗驗證的IV型分泌系統基因簇和效應蛋白等高質量數據(Bi,et al.,Nucleic Acids Research,2013)。預測效應蛋白最簡便的方法是與SecReT4收錄的T4SEs進行序列比對;而人工智慧方法則有可能發現與已知T4SE序列相似性低的新效應蛋白。近期,卷積神經網路(CNN)等多種機器學習方法開始應用於T4SE和non-T4SE的分類問題,然而它們的預測精度和運行速度仍有待提高。

細菌IV型分泌系統效應蛋白預測軟件T4SEfinder的模型架構

TAPEBert_MLP主體結構由蛋白序列預訓練語言模型(TAPEBert)和多層感知機分類器(MLP)組成

該論文將蛋白序列預訓練語言模型(pre-trained protein language model)TAPEBert應用到T4SE分類任務中,開發了快速準確的T4SE預測軟件T4SEfinder。首先,通過更新SecReT4資料庫,T4SEfinder的訓練集包含了來自21種細菌的518個經實驗驗證的T4SEs。其次,通過綜合評估多種機器學習模型對T4SE的預測效能後,T4SEfinder採用了基於BERT的蛋白序列預訓練方法TAPE(Task Assessing Protein Embeddings)以及多層感知機分類器(multi-layer perceptron,MLP)來搭建模型TAPEBert_MLP(上圖);對於五折交叉驗證和獨立測試數据集,TAPEBert_MLP模型的預測準確率略優於常用的基於PSSM(位置特异性打分矩陣)和CNN的PSSM_CNN模型。最後,部署在一臺RTX 2080 SUPERGPU服務器上的T4SEfinder能够在3分鐘內完成5000條蛋白序列中T4SE和non-T4SE的分類,速度比PSSM_CNN方法快五十多倍。囙此,T4SEfinder適用於細菌全基因組規模的T4SE識別問題,可能有助於實驗發現病原菌的新效應蛋白。

論文連結

https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbab420/6397152?login=true

資料標籤: 分泌蛋白 科普
本文標題: 上海交大歐竑宇研究組開發細菌全基因組規模預測IV型分泌系統效應蛋白的新軟件
永久網址: https://www.laoziliao.net/doc/1656041846582072
相关資料
廣州大學孔凡江/劉寶輝團隊解析Tof5不同等位變異的平行選擇促進野生大豆和栽培大豆的高緯度適應性
大豆是典型的光週期敏感型短日照作物,光週期敏感性决定大豆對於不同緯度的適應性。在長日照條件下Tof5的功能獲得型等位變異顯著的促進大豆開花,提高栽培大豆和野生大豆的適應性。分子機制解析表明控制大豆開花的關鍵抑制子E1能够直接調控Tof5的表
標籤: 大豆
城市環境研究所在污泥生物炭高附加值利用方面取得研究進展
隨著我國社會經濟和城鎮化進程的快速發展,城市汙水處理廠污泥產生量顯著增加,濕基年產量將超過6000萬噸,處置壓力巨大。由於我國現時還沒有形成針對污泥生物炭土地利用的統一標準,極大限制了其在土壤改良方面的規模化應用,囙此,開拓污泥生物炭多元化
標籤: 環境污染 科普
瀋陽自動化所在基於深度强化學習的車間智慧調度方面研究取得新進展
由於車間調度問題大多屬於NP難問題,傳統元啟發式演算法只能在多項式時間內求得近優解。對大規模問題,元啟發式演算法的求解時間難以滿足動態生產環境下實时決策的需求。如何對可重構車間的生產調度和車間重構進行實时優化和動態協同,是研究的難點。該研究
標籤: 機器學習 强化學習 重構
瀋陽自動化所提出基於時空四維卷積網絡的海洋溫度預測模型
近日,中國科學院瀋陽自動化研究所在海洋溫度預測方法研究中取得新進展,提出的基於立體空間-時間的四維卷積模型高精度應用於海水溫度預測。瀋陽自動化所數位工廠研究室大數據課題組提出一種基於時空四維卷積網絡的模型,此模型由四維卷積網絡、殘差網絡、再
標籤: 卷積 預測模型 網絡模型 科學 科普