北大新材料學院潘鋒課題組在基於拓撲數學與機器學習研究資料

機器學習在各領域的廣泛應用促生其在資料領域的應用,它提供了一種新型的工具,即能從高維數據中發現數據間的規律,有助於减少計算量從而加速對新材料的探索。特徵選取是機器學習的關鍵組成部分,選擇合適的形式來表達將直接影響最終模型的效果。在材料科學領域必須要捕獲所有的相關資訊,從而達到區分不同原子和不同晶體環境的作用。

機器學習在各領域的廣泛應用促生其在資料領域的應用,它提供了一種新型的工具,即能從高維數據中發現數據間的規律,有助於减少計算量從而加速對新材料的探索。特徵選取(特徵工程)是機器學習的關鍵組成部分,選擇合適的形式來表達將直接影響最終模型的效果。在材料科學領域必須要捕獲所有的相關資訊,從而達到區分不同原子和不同晶體環境的作用。囙此在資料領域中,特徵可以是簡單的確定原子序數,可能涉及複雜的轉換,比如徑向分佈函數(RDFs)的擴展,也可能是聚合統計資料(例如求平均值、求最大值等)。

在數學中,拓撲可以用來處理空間中不同組件的連通性,並表徵空間中獨立的實體,環和高維拓撲面。拓撲提供了最高級別的抽象囙此可以作為一種處理高維結構數據的有效工具。其中,拓撲數學的持續同調(persistent homology)通過將多尺度幾何資訊嵌入拓撲不變數從而將幾何分析和拓撲分析連接起來,它是一種在變化的尺度中分析拓撲結構的重要方法。其基本思想是隨著原子尺度的變化記錄結構的拓撲不變數(例如β0、β1和β2),從而得到拓撲指紋(如圖1所示)。

圖1類苯環結構的拓撲指紋示意圖及碳硼烷結構的預測

在此過程中,利用持續時間較長的拓撲特徵來表徵系統的內在特性,通過預先設定的閾值進行過濾。在三維空間中,獨立組成、環和腔是非常重要的拓撲特徵。具有一定連接關係的結構會產生內在不變的拓撲特徵。持續同調可以記錄原子尺寸變化過程中,系統拓撲不變數的開始和結束,通過條碼(barcode)可以進一步將其視覺化,也稱為拓撲指紋。

北京大學深圳研究生院新材料學院潘鋒教授課題組與美國密歇根州立大學數學系魏國衛教授課題組合作,首次將以持續同調為基礎的數學方法引入材料科學中,利用持久同源將高維空間中的資料結構映射到低維拓撲空間,從而更方便地研究結構與效能之間的關係。研究團隊將持續同調方法引入碳硼烷體系的分析,通過對這些結構的拓撲指紋的分析,建立起基於拓撲不變數及其持久長度的模型。他們利用拓撲不變數(β0、β1和β2)定量分析和預測了碳硼烷結構及其對應BnHn2-的相對能量。通過利用拓撲不變數(β0、β1和β2)的平局長度特徵,可以將該拓撲資訊與BnHn2-(n = 5~20)的相對能量進行精確擬合,Pearson相關係數為0.977,而相應的碳硼烷結構C2Bn - 2Hn(n = 5~20)的Pearson相關係數為0.937,如圖1。該工作以令人滿意的精度證明了持續同調方法應用於多原子體系的可行性,提供了一種新型的團簇結構描述符(Chinese J. Struct. Chem.2020,39(6),999-1008)。在未來的工作中,研究團隊將利用更有效的機器學習方法,根據持續同源得到的拓撲資訊,建立結構與性質之間的關係,實現更大原子數量的碳硼烷結構的預測。

同時,團隊在鋰團簇能量預測方面,除了使用拓撲不變數來選取團簇結構的拓撲幾何資訊,對於原子間的短程作用和長程作用等數據資訊,還進一步提出了持續獨立原子對(PPI)來計算“生長”過程中每對原子(或點)的獨立性。最初,所有的原子都是不相連的,PPI條的數目等於獨立原子對的數目。隨著生長ϵ參數的變大,一些原子對連接起來,它們的PPI合併。他們提出的PPI條碼比β0更具信息量。如圖2所示,其可以與拓撲不變數一起用於描述資料結構。基於選取的拓撲特徵,研究團隊構建團簇能量預測機器學習模型。最終,他們僅僅利用小型團簇結構構成的數据集來訓練所得的模型,即可對中型和大型團簇形成非常高的預測精度。該模型可用於團簇結構的快速篩選,加快最穩定團簇結構蒐索的速度。相關成果發表在隸屬Nature Index的知名雜誌The journal of physical chemistry letters(2020,11,4392)上。

圖2基於持續同調與持續獨立原子對的鋰團簇能量預測

在無機資料的能量預測方面,由於持續同調僅提供全域的拓撲結構資訊,對於無機化合物包含大量不同元素和不同結構的體系沒法直接使用。囙此,團隊提出了原子特殊的持續同調(ASPH),它考慮的是晶胞中每個原子周圍不同環境構成的持續同調,在拓撲不變數中嵌入原子資訊。基於ASPH方法表達的結晶化合物拓撲特徵可以構建晶體能量預測模型,使用拓撲表達的結構特徵配合元素特徵可以實現MAE僅為61 meV/atom的結果(圖3)。此外,基於預測結果,團隊還對預測偏差較大的結構進行了詳細的討論與分析,發現了异常通常存在於特殊的氧化態與畸變的結構之中,新增了此類异常的認識與理解。相關成果最近發表在Nature集團旗下的知名雜誌npj Computational Materials(2021,7,1-8)上。

拓撲數學是一個强大的工具,可以通過變化的尺度定性分析資料結構,借助機器學習方法,便可以構造有高精度的資料預測機器學習模型,用於團簇結構分析、團簇結構蒐索以及晶體結構能量預測等諸多資料結構規律的科學研究中,有助於加速資料的發現與應用。

該工作由潘鋒和魏國衛共同指導,第一作者分別是北京大學深圳研究生院新材料學院研究生陳冬、陳鑫和江毅,他們與團隊成員合作共同完成這項研究。該工作得到國家資料基因組重點研發計畫和深圳市科技計畫項目的大力支持。

本文版權歸原作者所有,文章內容不代表平臺觀點或立場。如有關於文章內容、版權或其他問題請與我方聯系,我方將在核實情况後對相關內容做删除或保留處理!

本文標題: 北大新材料學院潘鋒課題組在基於拓撲數學與機器學習研究資料
永久網址: https://www.laoziliao.net/doc/1656063477413450
相关資料
深圳先進院開發出高效率計算熱介面資料導熱效能的數值模擬方法
提高封裝晶片散熱的有效方法是在發熱源和散熱器之間填充一層同時具有高導熱係數和良好的可壓縮性的熱介面資料。由於設計參數空間巨大,採用計算的方法探究參數之間的作用機制、並對配方進行高通量篩選,有望大幅促進高性能熱介面資料的研發。為了實現此目的,
標籤: 數值模擬 導熱係數 熱阻
深圳先進院在定量調控碳點pH敏感光致發光性質上取得進展
近期,碳點的pH敏感螢光性質及其在pH傳感中的應用引起了極大程度的關注,但對於“pH敏感螢光的發光機理”這一關鍵基礎問題的研究卻鮮有報導,使得對碳點pH敏感螢光性質的調控成為限制其實際應用的難題。碳點具有良好的光穩定性和極低的細胞毒性,有望
標籤: 螢光檢測 深圳 調控
上海交大ITEWA團隊在ACS,Energy,Letters期刊發表“從空氣中取能的超高能量密度吸附熱池”研究論文
該論文提出了基於石墨烯氣凝膠複合吸附劑的超高能量密度吸附熱池,通過石墨烯氣凝膠複合吸附劑與空氣中水蒸汽之間的解吸-吸附實現儲熱與放熱,同時通過熱力迴圈實現儲熱階段的熱能梯級利用和放熱階段的熱能提質利用,能量密度可高達1580Wh·kg-1,
標籤: 能量密度 空氣密度 科學 科普
上海應物所基於摻雜調控氧空位改善熔鹽堆用Ni-28W-6Cr合金抗高溫氧化效能研究取得重要進展
為了進一步改善Ni-28W-6Cr合金的抗氧化效能,抑制內氧化層NiWO4的氧空位的形成是行之有效的途徑。囙此,Zr摻雜可以顯著抑制NiWO4中的氧空位形成,從而减少氧的擴散通道,提高合金的抗高溫氧化效能。
標籤: ni 氧空位