6月29日,華中農業大學作物遺傳改良國家重點實驗室水稻團隊謝為博教授課題組在準確獲取4726份水稻品種的單倍型圖譜的基礎上,定量注釋了數百萬個序列變異在水稻編碼區以及調控區的效應,並詳細分析了變異位點效應的功能特性及組織特异性,發現編碼區大效應變異受到强烈的淨化選擇,而調控區大效應變異可能受到了正選擇。該研究產生的序列變異功能效應圖譜可用於篩選關鍵變異位點,將有助於水稻農藝性狀重要基因的尅隆和機制解析,並有望加速水稻種質資源的精准鑒定和稀有優异變異的挖掘。
在過去的十年中,全基因組關聯分析(GWAS)已被廣泛用於水稻重要農藝性狀關鍵調控基因的鑒定。然而,由於水稻中的連鎖不平衡衰减距離較長,導致大量中性變异比特點在GWAS中也很顯著,囙此關鍵變異位點的鑒定比較困難。同時,水稻中60%以上的變異位點的次要等位基因頻率小於5%,這些稀有變異難以通過GWAS進行評估和挖掘。囙此,構建一個準確、全面的功能注釋平臺來評估和預測序列變異的影響非常重要。這樣的平臺提供了獨立於遺傳學研究的資訊,將可以幫助篩選GWAS關鍵變異位點,以及挖掘稀有優异變異位點。
該研究首先利用4726份水稻品種的重測序數據鑒定出17397026個在至少10個品種中能重複鑒定到的變異位點,通過基因型填補,獲得了各個品種準確完整的單倍型圖譜。然後,基於編碼區變異的單倍型資訊鑒定了各品種的錯義突變位點,並根據胺基酸殘基的保存情况定量評估了每個錯義突變的效應,最終得到了918848個非冗餘錯義突變的效應。通過比較群體中具有不同等位基因頻率的變異中大效應變異的比例,發現編碼區的大效應突變傾向於具有較低的等位基因頻率,即受到了强烈的淨化選擇。
水稻序列變異效應圖譜的構建框架
水稻中超過80%的變異位點位於非編碼區,很多非編碼區變異通過影響重要基因的錶觀狀態和表達量進而影響了水稻的農藝性狀。然而,這些變異的效應在之前的研究中一直缺乏關注和相關的研究手段。人類醫學及該課題組最近的研究表明基於高品質的染色質可及性數據可建立深度學習模型,進而可以準確預測序列變異對染色質可及性的影響,據此可注釋非編碼區調控變異的效應(參見水稻團隊發佈基於深度學習模型預測植物基因組序列變異調控效應的網路服務)。
為此,該研究利用ATAC-seq科技首先獲得了水稻品種珍汕97的6個代表性組織的高品質染色質可及性數據,從中鑒定出157837個高可信的染色質開放區(open chromatin region,OCR),約占整個基因組的14.2%。發現很多重要基因的調控區及GWAS顯著位點均富集於OCR中,表明OCR對於GWAS調控變異的鑒定十分重要。利用染色質可及性數據以及對應的基因組序列信息構建了深度神經網路模型。通過評估,該模型可以準確預測不同組織間的染色質開放狀態,不同樣本在測試集中的預測值與真實值相關性(R2)在0.61到0.72之間,各組織平均的曲線下面積(AUROC)達到0.945(圖2)。利用雜種中等位基因特异的染色質可及性獨立實驗數據進行的評估表明,該模型預測單倍型效應方向的準確率達到0.94以上。這些結果表明該模型具有較高的準確性。
深度學習模型準確性的評估
基於上述深度學習模型,該研究預測了5067405個序列變異對其周圍染色質可及性的影響(效應)。與編碼區大效應變異的分佈不同的是,該研究發現水稻品種群體尤其是秈稻亞群在OCR區固定了大量的大效應調控變異,表明這些變異可能受到了正選擇。通過與基因組分佈比較發現這些大效應的變異在基因轉錄起始區域上游0-200 bp範圍內擁有更高的比例。通過不同組織間變異效應的比較分析發現,變異效應在不同組織間有較高的一致性(R2在0.35到0.85之間),同時還發現組織間預測方向相反的大效應變異(在一個組織預測為突變後使得染色質可及性新增而在另一個組織中預測會使染色質可及性降低或相反)富集於基因間遠端調控區域,而轉錄起始比特點附近的啟動子區域富集各個組織中方向相同的大效應變異。
該研究最後利用DEP1以及GW7等例子證明了該資源在尋找關鍵序列變異方面的可用性。為了方便更多研究者使用,該資源已被綜合到RiceVarMap資料庫(http://ricevarmap.ncpgr.cn/)中,使用者可以通過基因ID/名稱以及變異ID、上傳VCF檔案等多種方式快速便捷的獲取資料庫中變異的注釋結果。
序列變異效應圖譜的使用示例
該研究在Molecular Plant線上發表,題為“An inferred functional impact map of genetic variants in rice”。華中農業大學作物遺傳改良國家重點實驗室謝為博教授為該論文的通訊作者,趙虎博士為第一作者。廣西大學陳玲玲教授以及華中農業大學熊立仲教授對該研究給予了指導和幫助。華中農業大學王磊博士以及倪福川老師也為本研究提供了幫助。該研究的資料分析工作得到武漢大學超算平臺以及華中農業大學作物遺傳改良國家重點實驗室生物資訊計算平臺的支持和幫助,得到國家重點研發計畫(2016YFD0100803)、國家自然科學基金(31821005,31922065,317717555)以及亞熱帶農業生物資源保護與利用國家實驗室開放課題(SKLCUSA-b202002)的資助。
英文摘要
Interpreting the functional impacts of genetic variants(GVs)is an important challenge for functional genomic studies in crops and next-generation breeding.Currently,studies in rice(Oryza sativa)have mainly focused on the identification of GVs,while the functional annotation of GVs has not yet been systematically carried out.Here we present a functional impact map of GVs in rice.We curated haplotype information of 17397026 GVs from sequencing data of 4726 rice accessions.We quantitatively evaluated the effects of missense mutations in coding regions in each haplotype based on the conservation of amino acid residues and obtained the effects of 918848 non-redundant missense GVs.We also generated high-quality chromatin accessibility(CA)data from six representative rice tissues and used these data to train deep convolutional neural network models to predict the impacts of 5067405 GVs for CA in regulatory regions.We characterized the functional properties and tissue specificity of the effects of GVs and found that large-effect GVs in coding and regulatory regions might be subject to selection in different directions.We finally demonstrated how the functional impact map could be used to prioritize the causal variants in mapping populations.This impact map will be a useful resource for accelerating gene cloning and functional studies in rice and can be freely queried in RiceVarMap V2.0(http://ricevarmap.ncpgr.cn).
論文連結:
https://www.cell.com/molecular-plant/fulltext/S1674-2052(21)00260-4
本文版權歸原作者所有,文章內容不代表平臺觀點或立場。如有關於文章內容、版權或其他問題請與我方聯系,我方將在核實情况後對相關內容做删除或保留處理!