近日,上海交通大學生命科學技術學院微生物代謝國家重點實驗室在生物資訊學頂級刊物《Briefings in Bioinformatics》(IF:11.622)上發表題為“T4SEfinder: a bioinformatics tool for genome-scale prediction of bacterial type IV secreted effectors using pre-trained protein language model”的研究論文。該文將人工智慧方法應用於細菌IV型分泌系統效應蛋白預測的場景,提供了一款新的、適用於細菌全基因組規模的預測軟件。生命科學技術學院碩士生張昱朦和張陽明為該論文的並列第一作者,生命科學技術學院歐竑宇教授和澳大利亞莫納什大學生物醫學發現研究所宋江寧副教授為該論文的共同通訊作者。
細菌IV型分泌系統分泌系統(type IV secretion system,T4SS)是由多個蛋白組件構成的跨膜裝置,不僅能够介導DNA接合轉移,還能將效應蛋白精准轉運到真核或原核細胞中。IV型分泌系統效應蛋白(T4SE)能够影響真核細胞的基因表達和信號轉導,在病原細菌致病過程中起到重要作用。前期工作中,歐竑宇研究組構建了T4SS開放資料庫SecReT4,通過文字挖掘和人工校正,系統地收錄了實驗驗證的IV型分泌系統基因簇和效應蛋白等高質量數據(Bi,et al.,Nucleic Acids Research,2013)。預測效應蛋白最簡便的方法是與SecReT4收錄的T4SEs進行序列比對;而人工智慧方法則有可能發現與已知T4SE序列相似性低的新效應蛋白。近期,卷積神經網路(CNN)等多種機器學習方法開始應用於T4SE和non-T4SE的分類問題,然而它們的預測精度和運行速度仍有待提高。
細菌IV型分泌系統效應蛋白預測軟件T4SEfinder的模型架構
TAPEBert_MLP主體結構由蛋白序列預訓練語言模型(TAPEBert)和多層感知機分類器(MLP)組成
該論文將蛋白序列預訓練語言模型(pre-trained protein language model)TAPEBert應用到T4SE分類任務中,開發了快速準確的T4SE預測軟件T4SEfinder。首先,通過更新SecReT4資料庫,T4SEfinder的訓練集包含了來自21種細菌的518個經實驗驗證的T4SEs。其次,通過綜合評估多種機器學習模型對T4SE的預測效能後,T4SEfinder採用了基於BERT的蛋白序列預訓練方法TAPE(Task Assessing Protein Embeddings)以及多層感知機分類器(multi-layer perceptron,MLP)來搭建模型TAPEBert_MLP(上圖);對於五折交叉驗證和獨立測試數据集,TAPEBert_MLP模型的預測準確率略優於常用的基於PSSM(位置特异性打分矩陣)和CNN的PSSM_CNN模型。最後,部署在一臺RTX 2080 SUPERGPU服務器上的T4SEfinder能够在3分鐘內完成5000條蛋白序列中T4SE和non-T4SE的分類,速度比PSSM_CNN方法快五十多倍。囙此,T4SEfinder適用於細菌全基因組規模的T4SE識別問題,可能有助於實驗發現病原菌的新效應蛋白。
論文連結:
https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbab420/6397152?login=true