Bootstrap方法由Felsenstein於1985年引入系統發生學,是最常用的評估系統發育樹可信度的非貝葉斯方法。我們將系統發育重建看做統計學中的模型選擇問題,而非給定模型下的參數估計問題,每個可能的系統樹對應一個非嵌套的備擇模型。在這樣的視角下,使用bootstrap方法進行模型選擇的漸近理論的研究有重要價值。另一方面,在實際資料分析中,研究者發現在分析大規模基因組數據時無論估計的系統樹或者分支正確與否,bootstrap支持率都會偏高,引起這一現象的原因並不明確。
我們首次系統性的研究了不同情况下bootstrap模型選擇方法的漸近行為。研究結果表明,在最受關注的比較模型錯誤程度相同的情况下,當數據量很大時,模型的bootstrap支持率收斂到非退化分佈,不會呈現出貝葉斯模型選擇方法那樣的病態的極端結果。研究者們通常傾向於認為bootstrap支持率比貝葉斯後驗概率更加保守,我們的研究結果與經驗觀察相符,也為這一現象提供了理論解釋。但是,當比較模型錯誤程度相同且數據量很大時,模型的bootstrap支持率在不同數据集之間呈現出較大的波動,而非收斂到一個常數。囙此,在分析大規模數據時,也可能會對錯誤的系統樹或進化模型有較强烈支持。我們的分析結果為實際資料分析中觀察到的錯誤分支獲得較高bootstrap支持率這一現象提供了部分解釋。
這項工作發表在生物系統學旗艦期刊Systematic Biology上,與北京交通大學、英國倫敦大學合作完成。中科院數學與系統科學研究院朱天琪博士和海外領袖科學家楊子恒教授均為通訊作者。
Jun,H.,Yuting,L.*,Tianqi,Z.*,& Ziheng,Y*,2021,The asymptotic behavior of bootstrap support values in molecular phylogenetics.Systematic Biology,70(4):774–785.