近年來,深度學習逐漸成為冷凍電鏡圖像處理流程中顆粒挑選的常用方法。然而,現有基於深度學習的顆粒挑選方法無法在新數據訓練中動態地向模型中積累新的知識。也就是說,現有模型在新樣本上被訓練後,雖然能够在最新的數據上獲得良好的效能,但是往往無法保持其在舊數據上的顆粒挑選精度。此外,現有方法都是在特定數据集上訓練出通用模型,當要加入新的訓練數據時存儲和計算成本都很高,大大限制了其在未曾見過的數據上的識別能力和精度。囙此,我們需要改進現有深度學習網絡訓練的管道和方法。同時,現有的冷凍電鏡設施每天都在產生大量的新數據。如果能發展一種持續學習的科技,在持續的應用過程中,讓深度神經網路能够不斷地學習和積累新數據中的新特徵,不斷地增强對生物樣本圖像識別能力,對發展現代化的自動化冷凍電鏡系統具有非常重要的意義。
5月5日,清華大學生命科學學院李雪明副教授團隊,清華大學電子工程系沈淵教授團隊,北京科技大學電腦與通信工程學院陳健生教授團隊聯合在《自然•通訊》(Nature Communications)期刊線上發表研究論文,題目為“一種用於冷凍電鏡顆粒挑選知識積累的範例驅動持續學習方法EPicker”(EPicker is an exemplar-based continual learning approach for knowledge accumulation in cryoEM particle picking)。該論文報導了一種範例驅動的持續學習方法在蛋白質顆粒挑選中的應用,通過在顆粒挑選過程中不斷學習新的知識來擴展檢測模型識別生物大分子的能力。發展持續學習方法的重要意義在於,可以使人工深度神經網路具有類似人的學習方式,在使用中持續學習新知識、新技能,從而不斷增強自身能力。EPicker經過訓練之後可以挑選蛋白質顆粒、囊泡和纖維等廣泛的生物對象。
圖1.EPicker的網絡框架和持續學習的示意圖
針對現有方法的不足之處,研究團隊設計了一種基於持續學習的顆粒挑選算灋,能够在訓練神經網路的過程中不斷積累新的顆粒挑選知識,提高通用模型的顆粒挑選能力。該算灋通過設計雙路網絡結構(圖1)和融合知識蒸餾、歷史重播、正則化、稀疏標注方法,將新樣本的知識不斷積累到通用模型中去的同時,不會遺忘舊知識。這很好解决了模型在新數據上訓練後無法挑選舊數據樣本的問題。基於這些算灋,研究團隊開發了一個名為EPicker的新軟件系統。為了進一步擴展方法的適用範圍,團隊針對廣泛的生物對象設計了相應的挑選算灋,包括挑選囊泡和纖維等多種不同的生物對象,支持有偏和無偏的顆粒挑選管道以滿足用戶的不同需求等等。通過在具有代表性和挑戰性的數据集上進行大量實驗,並與現時較為流行的顆粒挑選方法進行對比,驗證了EPicker的有效性和優越性(圖2)。實驗結果表明,EPicker可以通過高效、高度自動化的持續學習過程得到精度高、召回高且泛化能力强的蛋白質顆粒挑選結果。
圖2.不同方法的顆粒挑選結果比較
清華大學生命科學學院李雪明副教授、清華大學電子工程系沈淵教授,北京科技大學電腦與通信工程學院陳健生教授為本文的共同通訊作者。清華大學電子工程系2019級碩士生張馨予,2020級碩士生趙天放為該論文的共同第一作者。本工作獲得了科技部重點研發計畫,國家自然科學基金委,北京市結構生物學高精尖創新中心,北京市生物結構前沿研究中心,生命科學聯合中心和北京資訊科學與科技國家研究中心等的資金支持。
論文連結:
https://www.nature.com/articles/s41467-022-29994-y