廈門大學信息學院在生物醫學組學資料處理與藥物AI領域發表多項研究成果

近日，信息學院於國際期刊（Nature/Cell）旗下子刊和生物資訊領域頂級刊物（Briefings in Bioinformatics，Bioinformatics）上發表多項研究成果。

1.Deep representation features from DreamDIAXMBD improve the analysis of data-independent acquisition proteomics（發表於Nature子刊Communications Biology，2021）

本文的第一作者是信息學院資訊與通信工程系2019級博士生高銘暄，通訊作者是信息學院計算機科學與科技系俞容山教授與生命科學學院韓家淮教授。本文通過分析DIA蛋白質組學數據中各類不同的離子質譜訊號，並結合基於迴圈神經網路的深度學習模型選取肽段洗脫譜圖特徵，大幅度提高了DIA蛋白質組學資料處理中的定性與定量任務的準確度與穩定性，其效能超過了現時現存的最為先進的DIA資料處理算灋。同時，該方法為深度學習算灋在DIA蛋白質組學譜圖特徵選取中的應用奠定了基礎，在臨床診斷、疾病治療和藥物篩選等大規模蛋白質組學研究中具有廣泛的應用前景。

2.HeTDR: Drug repositioning based on heterogeneous networks and text mining（發表於Cell子刊Patterns，2021）

本文的第一作者是信息學院計算機科學與科技系2019級博士生金淑婷，通訊作者是信息學院計算機科學與科技系劉向榮教授。藥物重定位的目的是通過研究已準予的藥物化合物，擴大藥物現有適應症或發現新的靶點，從而减少藥物開發的時間、成本和風險。本文提出了一種基於異構網絡和文字挖掘的藥物重定位方法（HeTDR），該方法基於圖神經網路和bioBERT模型，首次結合了來自多個網絡的藥物特徵和來自生物醫學語料庫的疾病特徵去預測藥物與疾病的相關性。實驗證明，HeTDR的效能優於最先進的藥物重定位模型。通過對五種疾病的案例分析，也證明了該模型能够發現疾病潜在的候選藥物。同時該方法為多種資訊融合提供了潜在的解決方案，並顯示出準確的效能，可為今後藥物重定位的加速發展提供新的思路，並可為臨床生物學家提供電腦輔助指導。

3.Snipe: Highly sensitive pathogen detection from metagenomic sequencing data（發表於Briefings in Bioinformatics，2021）

本文的第一作者是信息學院資訊與通信工程系2018級博士生黃麗紅，通訊作者是信息學院計算機科學與科技系俞容山教授。宏基因組樣本包含豐富的微生物和宿主的遺傳資訊，但是當樣本中存在與目標菌株高度相似序列的背景下，如何檢測和鑒定出含量低的目標菌株仍然是當下生物領域研究的難點。針對此問題，本文提出來一種基於物種特有片段作為參攷基因組來分析宏基因組樣本中的致病菌的新方法。相較於幾種主流宏基因組分析工具如Kraken2，KrakenUniq，PathoScope2與Sigma，我們的算灋能够在目標菌株含量較低的宏基因組樣本中，高靈敏和高特异檢測出目標菌株。該方法的提出有助於提高臨床病原微生物檢測的靈敏性和特异性，具有廣闊的市場前景和較大的經濟、社會效益，適於大範圍推廣應用。

4.preMLI: A pre-trained method to uncover microRNA-lncRNA potential interactions（發表於Briefings in Bioinformatics，2021）

本文的第一作者是信息學院計算機科學與科技系2020級研究生俞心宇與2020級博士生蔣立坤，通訊作者是信息學院計算機科學與科技系劉向榮教授。本文通過對大規模RNA序列進行預訓練得到更優的序列表徵，並結合基於深度特徵挖掘機制的深度學習模型進一步獲取序列特徵，提高了模型在植物RNA相互作用預測任務中的效能，其預測名額超過了現時先進的植物RNA相互作用預測方法，並驗證了該模型在植物中具有一定的跨物種預測能力。該模型的提出能够加速探索植物RNA間相互作用的生物學功能，模型構建思路也對相關研究具有參攷價值。

5.Comparison of high-throughput single-cell RNA sequencing data processing pipelines（發表於Briefings in Bioinformatics，2020）

本文的共同第一作者是信息學院資訊與通信工程系2019級博士生高銘暄與2018級碩士生淩明毅，通訊作者是信息學院計算機科學與科技系俞容山教授。本文通過使用Nextflow流程控制框架，集成了現存最為廣泛使用的7種高通量單細胞轉錄組測序（scRNA-seq）資料處理軟件，開發了高度綜合的新型scRNA-seq資料處理流程。同時，文章對現有的7種資料處理流程在來自不同測序平臺的多個數据集上進行了效能的測試與比較，在計算效能，定量準確性，高變異基因篩選，差异表達分析等多個方面進行了系統性評估，並為不同來源、不同數據量的測序項目使用的資料處理工具提出建設性的指導。該工作首次評估了資料處理流程對測序資料分析結果的影響，其分析結果與測試框架可為大規模高通量scRNA-seq研究帶來系統的指導，為單細胞分析中的資料處理提供可靠的理論依據。

6.A novel antibacterial peptide recognition algorithm based on BERT（發表於Briefings in Bioinformatics，2021）

本文的第一作者是信息學院計算機科學與科技系2020級研究生張悅與2017級研究生林劍遠，通訊作者是信息學院計算機科學與科技系劉向榮教授。抗菌肽被視為抗生素的最佳替代品，現時經過實驗測定的抗菌肽數量遠遠小於已知的且經過序列測定的蛋白質數量。本文將預訓練策略應用於抗菌肽識別與預測領域，基於BERT模型構建分類器，使用來自UniProt的蛋白質數據進行預訓練，分別在具有較大差异的六個抗菌肽數据集上了進行微調和評估。實驗結果證明模型預測的準確率優於現有方法，實現了對抗菌肽樣本的準確識別。實驗驗證了預訓練和平衡數据集在一定程度上可以提高模型效能，同時提供全新構造的抗菌肽和非抗菌肽數据集，以及訓練好的通用蛋白質預訓練模型和抗菌肽識別模型。在這個工作中我們提供了經過不同分詞方法訓練的預訓練模型，可以作為各種蛋白質序列遷移學習的預訓練模型，為後續研究人員减少模型訓練成本。

7. ScaleQC: a scalable lossy to lossless solution for NGS data compression（發表於Bioinformatics，2020）

本文的第一作者為信息學院計算機科學與科技系俞容山教授。基因測序的數據量巨大，給基因測序的臨床應用帶來了困難，二代測序數據中的堿基質量值在無損壓縮後仍然佔據了很大一部分存儲空間，有損壓縮科技可以進一步减少質量值佔用的空間，但是會導致資訊遺失，在許多應用中，仍然需要無損壓縮。囙此，必須為不同的應用準備多種檔案格式的序列數據。本文提出針對二代測序數據堿基質量值的可伸縮壓縮方法，根據質量值的統計特性設計了比特平面編碼算灋，提供了一個從無損到有損的多細微性壓縮方案，即提高了無損壓縮效率，在有損壓縮時又盡可能的保留了數據的生物資訊，大幅减小了有損壓縮對下游分析的影響。通過該算灋解决了基因測序的數據量巨大、存儲困難的問題，消除了臨床研究中使用二代測序科技的資料存儲瓶頸。

8.Identifying enhancer promoter interactions with neural network based on pre-trained DNA vectors and attention mechanism（發表於Bioinformatics，2020）

本文的第一作者是信息學院計算機科學與科技系2017級研究生洪曾豔，通訊作者是信息學院計算機科學與科技系劉向榮教授。增强子啟動子相互作用（EPIs）的鑒定對人類發育具有重要意義。本文提出了一種新的深度學習模型EPIVAN，它可以僅使用基因組序列預測遠距離的EPIs。為了探索關鍵序列特徵，首先使用預訓練的DNA載體編碼增强子和啟動子；然後利用一維卷積和門控遞迴單元選取局部特徵和全域特徵；最後，利用注意機制提高關鍵特徵的貢獻，進一步提高EPIVAN的效能。對六個細胞系的基準比較表明，EPIVAN比最先進的預測名額表現更好，進一步證實了該模型既能捕捉細胞系特有的特徵，也能捕捉細胞系共有的特徵。此外，該模型具有良好的遷移能力，可以作為遷移學習的預訓練模型。

9.Diamond: a multi-modal DIA mass spectrometry data processing pipeline（發表於Bioinformatics，2020）

本文的第一作者是信息學院計算機科學與科技系2020級碩士生李陳鑫，通訊作者是信息學院計算機科學與科技系俞容山教授。本文通過使用Nextflow流程控制框架，首次將DIA蛋白質組學資料處理中的四種策略十餘個分析工具集成一體，開發了新型DIA蛋白質組學資料處理軟件Diamond，使得具有不同需求的用戶能够一站式完成基於肽段庫、無肽段庫、肽段中心打分以及譜圖中心打分四種分析，並且完全無需繁瑣的軟件環境配寘工作。由於Nextflow框架的高效並行與合理的進程管理，Diamond在大規模數据集上的計算效能遠遠超過了普通程式腳本，在大規模臨床定量蛋白質組學研究中具有廣闊的應用前景。

相关資料

中科院合肥研究院智慧所參與研製的天和覈心倉無容器系統——樣品盒與廢樣盒完成任務

北理工課題組在高可逆性金屬鋰負極介面設計方面取得最新研究進展

大連化物所通過非生物管道解除自然光合作用的光抑制

深大高院董蜀湘課題組在人工壓電模態理論和多自由度驅動研究方面取得重要進展

2016年元旦祝福語大全：新年的溫馨祝福簡訊

古代王朝到底依據什麼名字取名的王朝為何不用開國皇帝姓氏命名

美國優秀幼兒教師專業標準

空心菜發芽後要移栽嗎