科技日報北京10月10日電(記者劉霞)瑞士蘇黎世聯邦理工學院科學家在最新一期《自然》雜誌上發表論文稱,他們開發出一款名為MetaGraph的DNA搜尋引擎,能快速、高效地檢索公共生物學數據庫中的海量資訊,為研究生命科學提供了强大的專業工具。
MetaGraph的研發,源於科學界對日益龐大的基因測序數據“用不好、找不著”的現實困境。過去幾十年來,各類生物學資料庫規模呈爆炸式增長,然而原始測序數據往往碎片化、雜訊多、體量龐大,科學家難以直接從中高效選取有用資訊。
MetaGraph的覈心突破在於採用數學中的“圖結構”,將相互重疊的DNA片段智慧聯結。其原理類似於圖書索引中將含有相同關鍵字的句子關聯起來,形成知識網絡。研究團隊綜合了7個公共資助資料庫,構建出一個跨越病毒、細菌、真菌、植物、動物乃至人類的生命全譜系索引。該索引共涵蓋1880萬個獨特的DNA與RNA序列集,以及2100億個胺基酸序列集。
基於這一龐大索引,團隊開發出了可直接通過文字提示檢索原始數據檔案的搜尋引擎。團隊表示,這是一種與生物學數據互動的全新管道——數據被高度壓縮,卻可隨時調取。MetaGraph使研究人員能直接對“序列讀取檔案”(SRA)等存儲庫提出生物學問題,該資料庫本身包含超過1億個DNA字母。
為驗證其實用性,團隊利用MetaGraph掃描了24萬多個人類腸道微生物組樣本,搜尋抗生素耐藥性的遺傳標記。僅用一臺高性能電腦,約一小時便得出結果,展現出强大的分析效率。
法國巴斯德研究所生物計算專家拉揚·希基評估稱,這是一項“重大突破”,為分析DNA、RNA及蛋白質序列等原始生物學數據設立了新標準。