近日,南方科技大學生命科學學院生物系植物與食品研究所副教授翟繼先課題組發佈了可以方便快速查詢~45000個植物公共RNA-seq文庫的線上資源(PPRD,http://ipf.sustech.edu.cn/pub/plantrna/),相關成果以“PPRD: a comprehensive online database for expression analysis of ~45000 plant public RNA-Seq libraries”為題發表在國際知名學術期刊Plant Biotechnology Journal。
近十年間,隨著測序成本的降低和數據質量的提高,RNA-seq已經成為研究基因表達常用手段。截至2021年,對於主要作物,如玉米、水稻、大豆、小麥和棉花,公共數據中RNA-seq的文庫數量以指數速度已新增到~45000個。現時已有一些相關的資料庫,但現存的資料庫通常對不同的實驗項目產生的數據分別進行定量處理,使用不同的分析流程和不同版本的基因組和注釋檔案,所以難以直接比較它們之間的表達水准。為了解决這一問題,充分利用公共RNA-seq文庫,迫切需要通過統一的處理流程分析所有公開可用的文庫數據,並將它們綜合到一個易於使用的資料庫中。
翟繼先課題組此次發佈的資料庫(Plant Public RNA-seq Database,PPRD)綜合了來自GEO、SRA、ENA和DDBJ資料庫中幾乎所有的玉米(19664)、水稻(11726)、大豆(4085)、小麥(5816)和棉花(3483)的RNA-seq文庫資源。該工作對所有的文庫資訊進行整理和分類,得到大量的突變體、處理條件以及不同組織和生長發育時期的文庫,除了對所有文庫進行標準分析之外,同時對含有生物學重複的860組突變體文庫和2575組處理相關的文庫進行了基因差异表達分析。
為了提高資料庫使用的效率,PPRD支持基因名、文庫名、項目編號、關鍵字、以及任意兩種進行組合的査詢,並以多種形式的表格或者圖片返回查詢結果,包括不同組織、不同發育時期、不同非生物脅迫和生物脅迫下的基因表達模式,以及基因在不同突變體和脅迫條件下的差异表達情况。PPRD支持基因共表達結果的査詢,同源基因表達量査詢。此外,PPRD內嵌基因組瀏覽器,支持用戶查看基因組局部比對情况。為便於研究者之間快捷地分享最新搜索結果,PPRD提供了網頁共亯功能,並定期更新文庫資源,研究者可通過共亯按鈕來共亯當前結果。
圖1 PPRD資料庫概況
A:水稻、玉米、大豆、小麥和棉花在2010年-2020年間的測序數據增長情况;B:PPRD文庫統計資訊;C-E:組織特异表達基因的驗證;F:基因OsLecRK3在不同生物脅迫條件下的表達水准;G:基因OsLecRK3在不同處理條件下的下調表達情况;H:基因OsLecRK3在對照和乾旱文庫中的基因組局部比對情况。
翟繼先課題組博士研究生於義溟、碩士研究生張洪為共同第一作者,翟繼先為該論文的通訊作者。南科大生物系研究助理教授龍豔萍和博士研究生束藝也參與了本研究的部分工作。該研究得到了廣東省創新創業團隊等項目的資助。
論文連結:https://onlinelibrary.wiley.com/doi/10.1111/pbi.13798