線粒體DNA因具有母系遺傳、跨階元保守以及較快的進化速率等特點,被廣泛應用於進化生物學,生物多樣性及臨床醫學的相關研究中。而線粒體基因組相比於線粒體DNA片段,包含更豐富的遺傳資訊且不易受到自然選擇的影響,是一種重要的分子標記。
數年前,若要獲取一個完整的線粒體基因組,通常要使用噬菌體尅隆的方法。在一代測序普及後,獲取完整線粒體基因組則通常需要使用引子步移(primer-walking)PCR的方法。但這兩種方法都非常耗時且成本較高。近年來,隨著測序科技的快速發展,動物(尤其是非模式動物)全基因組數據(WGS)獲取變得簡單、便宜;這使得資料庫中全基因組數據量呈指數態勢增長。全基因組測序數據往往同時包含線粒體序列和核基因序列,通過生物資訊學的方法從中選取並組裝完整的線粒體基因組,是非常好的科技手段。雖然已有部分學者開發了一些生物資訊學軟件用以實現此目的,但是,其大都具有自身的局限性,包括需要人工提供參攷序列(“種子”)、數據相容性差、準確率低等難點,未能高效、準確、便捷地完成相關任務。
為克服這一難點,提升研究人員的工作效率,中國科學院成都生物研究所李家堂課題組開發了一種不依賴“種子”序列從動物全基因組數據中選取並組裝線粒體全基因組的方法,並使用Python及C++編寫為軟件——MEANGS。MEANGS工作流程比較簡單,極大地提升了研究人員的可操作性。首先,利用預置的線粒體模塊資料庫,MEANGS使用nhmmer根據線粒體序列特徵對輸入的二代數據進行預篩選並獲取潜在的線粒體編碼reads;獲得潜在的線粒體編碼reads後,MEANGS利用線性反覆運算算灋(SSAKE)(C++改寫)組裝模塊對reads進行組裝獲取線粒體編碼contigs;相關contigs經由nhmmer進行二次篩選,非冗餘線粒體編碼contigs將被選擇作為“種子”序列用於全線粒體基因組的組裝;最後利用“種子”序列,MEANGS再次使用組裝模塊以“種子”contigs為基礎,組裝完整的線粒體基因組。另外,針對組裝好的線粒體基因組,MEANGS可對編碼基因進行輔助注釋。
圖1 MEANGS利用動物全基因組數據組裝線粒體基因組的工作流程。
針對MEANGS,本研究使用了來自不同類群(哺乳類、鳥類、魚類、爬行類、兩栖類,昆蟲和軟體動物),不同測序質量的16組數據來進行相關測試。同時,本研究選取了其他三款同類型軟件(norgal,NOVOPlasty,MitoZ)進行同條件測試,並基於常規的評估標準(運行時長、記憶體使用、準確性、完整性、完成數量等)對軟件的表現進行評估。測試及比較結果表明,MEANGS數據相容性最好,完成了所有測試數據的測試,而其他三款軟件均有失敗案例。在常規的評估名額上,MEANGS表現出最優的整體效能,除了在記憶體使用上稍遜色於norgal,其餘表現均優於其他軟體。MEANGS的開發有利於研究人員開展相關工作,推動相關學科的高品質快速發展。
圖2 MEANGS與其他三款軟件相比表現出最好的數據相容性。
圖3 MEANGS與其他三款軟件在常規評估名額上顯示出明顯優勢。
該研究成果以MEANGS: an efficient seed-free tool forde novoassembling animal mitochondrial genome using whole genome NGS data為題,已在生物資訊學國際頂級期刊Briefings in Bioinformatics(IF: 11.62)線上發表。中國科學院成都生物研究所在讀博士研究生宋夢洹,特別研究助理嚴超超博士為論文的共同第一作者,李家堂研究員為論文的通訊作者。本研究得到成都生物研究所高級工程師蔣海波博士和碩士生桂承波的大力幫助。本研究得到中國科學院B類先導科技專項、科技部第二次青藏高原綜合科學考察研究專案、中國科學院對外合作重點專案、中國科學院西部之光交叉團隊項目、中國科學院前沿科學重點研究專案及四川省傑出青年科技人才項目等項目的資助。
原文連結