11月22日-23日,深圳市福田區人民政府、深圳市福田區科技創新局和粵港澳大灣區數字經濟研究院(International Digital Economy Academy,簡稱“IDEA”)聯合舉辦IDEA大會。IDEA創院理事長、美國國家工程院外籍院士、英國皇家工程院外籍院士、清華大學雙聘教授沈向洋在會上發佈了由清華大學統計學研究中心俞聲副教授團隊與粵港澳大灣區數字經濟研究院聯合開發的大型開放醫學知識圖譜(Biomedical Informatics Ontology System,簡稱“BIOS”)。
沈向洋在BIOS發佈會現場講解
醫學知識圖譜是一種由生物醫學概念名稱、概念分類、概念間關係以及相應的ID系統構成的特殊資料庫,用於支持醫學自然語言處理、人工智慧建模以及行業資料交換,是醫學大數據與人工智慧領域最重要的基礎設施之一,對於行業發展具有戰畧影響。美國國立衛生院國家醫學圖書館於1986年開發並發展至今的一體化醫學語言系統(Unified Medical Language System,簡稱“UMLS”)是現時最權威的英文醫學知識圖譜,為英語國家醫學大數據科技與產業的發展作出了卓越貢獻。而長久以來,中文領域缺少大型開放醫學知識圖譜,是我國醫療大數據與人工智慧產業發展的主要制約因素之一。
BIOS知識圖譜包含的實體和關係數量的描述
基於BIOS知識圖譜的醫學命名實體識別演示
為解决中文領域開放醫學知識圖譜的缺失,並在國際範圍內進一步提升醫學知識圖譜的建設水准,俞聲帶領團隊進行了長達五年的技術攻關,先後開發了基於圖分割與深度學習的中文電子病歷無監督多細微性分詞及術語選取、知識决定的醫學術語向量化及正則化、高通量醫學關係選取、生物醫學自動翻譯等科技,為數據驅動的大規模圖譜自動構建建立了基礎,並於2020年11月與IDEA研究院沈向洋院士團隊達成合作。在領先算灋、强大算力和超大規模語料數據的支持下,僅用短短一年時間,雙方團隊便從原始底層醫學術語開始,建立了全新的具有完整自主知識產權的中英文雙語醫學知識圖譜BIOS,其規模整體接近現有權威知識圖譜UMLS,並在內容質量上形成多點超越。
BIOS現時已線上發佈(http://bios.idea.edu.cn)。同時,秉承全面提升發展中國醫療大數據與人工智慧行業的開放理念,BIOS擬於近期以CCBY-NC-ND協定開放完整數據下載。
未來,清華大學統計學研究中心將與IDEA研究院以及更多國內頂尖醫院合作,不斷擴充BIOS的內容並完善其質量。這不僅將使我國醫療大數據與人工智慧產業的基礎得到全面提升,也將輻射國際,帶動全球行業共同發展。