The,Innovation,|,clusterProfiler,聚焦海量組學數據覈心生物學意義

clusterProfiler4.0同步支持最新版GO和KEGG數據,支持數千物種的功能分析,應對不同來源的基因功能注釋提供了通用的分析方法,適用各類組學數據(RNA-seq,ChIP-seq,Methyl-seq,scRNA-seq…上述圖1-4使用我們課題組開發的enrichplot包進行視覺化,考慮到相容用戶常用的數據操作軟件,clusterProfiler4.0同時實現了tidy介面,允許用戶使用dplyr動詞進行數據的操作和ggplot2進行數據的視覺化(圖5)。

導讀

clusterProfiler4.0同步支持最新版GO和KEGG數據,支持數千物種的功能分析,應對不同來源的基因功能注釋(如cell markers,COVID-19等)提供了通用的分析方法,適用各類組學數據(RNA-seq,ChIP-seq,Methyl-seq,scRNA-seq…)。新版本尤其實現多組數據間自由比較,如不同條件、處理等,並內寘系列流行輔助工具,如資料處理包dplyr、視覺化包ggplot2等,方便分析人員用熟悉的管道自由探索,實現數據高效解讀。

高通量組學數據功能解讀中,功能富集分析是至關重要的一步,相關軟體繁多但大多數僅針對極少量的模式生物開發,無法支持大量非模式生物的分析訴求。功能分析依賴準確的功能注釋,但許多軟件在發表文章之後並未及時更新內寘的功能注釋。2016年,Nature Methods文章指出,高達42%的相關工具內寘注釋超過五年未更新,用戶基於此類工具的資料挖掘,結論反應的僅是學界五年前的生物學知識積累,頗有時光倒流的感覺。尤為重要的是,基於舊有注釋,大約只能捕獲到最新資料庫中26%的生物學過程或通路。我們開發初版clusterProfiler時,就致力解决這些困擾領域的普遍問題,並在十年間持續進行工具的更新和維護後,推出clusterProfiler4.0版本(https://bioconductor.org/packages/clusterProfiler/)。

同行評論

為滿足包括模式生物和非模式生物在內的幾千個物種的GO分析,clusterProfiler4.0銜接支持最新完整的OrgDb(全基因組注釋,可以使用AnnotationHub線上獲取),同時線上實时銜接KEGG資料庫,從而實現基於最新的KEGG注釋,分析幾千個物種的通路。為方便用戶同時進行過表徵分析(ORA)和基因集富集分析(GSEA),升級版提供了通用的介面支持不同來源的注釋數據,尤其是新物種GO注釋、COVID-19等新的功能注釋,進行富集分析。針對日益複雜的實驗設計,clusterProfiler4.0可對比分析多組數據,允許用戶針對功能譜進行比較分析,完整提供對比分析中涉及的關鍵輔助工具,包括ID轉換(如ENTREZ,ENSEMBL,SYMBOL等)、結果操作(如條件過濾,排序、計算衍生變數)等,並對應實現視覺化展示,讓結果解讀更為便捷高效。

圖1GO富集分析

富集分析中,GO術語以有向無環圖的形式組織,具有冗餘性,一個節點顯著富集,其父節點可能只因包含這個子節點而被富集,但其他子節點並無貢獻,這會影響對關鍵節點的分辨。然而在最常用的GO富集結果柱狀圖展示時,此種關聯資訊缺失,讓上述問題不易察覺,造成解讀偏差。舉例而言,圖1A使用Enrichment Map視覺化30個最顯著的基因集,看似形成一個緊密連接的複雜功能模組,其實是因上述冗餘問題造成的假像。利用clusterProfiler4.0提供的去冗餘功能,關鍵網絡(圖1B)可以給我們更為凝練的全域資訊,明確地顯示覈心的功能模組。

圖2KEGG富集分析

類似的,KEGG通路分析中,不同通路間存在基因交集,形成串擾(crosstalk)。特定生物學過程中,串擾基因發生活性改變,往往影響多個通路,因而無法將該生物現象背後的生物通路簡單歸結為某一條的作用。我們對一份乳腺癌表達數據進行GSEA分析,依據NES(歸一化的富集分數)作為通路被干擾程度的名額,選取NES絕對值最大的五條通路包括Biosynthesis ofaminoacids,Cell cycle,DNA replication,IL-17signaling pathway和Proteasome進行展示。圖2A作為經典的GSEA富集分析呈現管道,主要傳遞的資訊是:分析涉及的屬於某一通路的基因,在所有基因排序中是否傾向聚集於曲線頭部(代表通路啟動)或尾部(代表通路抑制)。圖中間的色塊分佈雖然可以顯示相應通路的基因在五條通路曲線相應的位置,但無法展現通路間的基因交集,交集基因的上下調是否一致,對瞭解通路之間的串擾大有幫助。圖2B將這些資訊呈現出來,可以看出各通路中特有基因(圖2B下單個黑點)以及不同通路之間交集基因的上下調表達情况(fold change),有助於我們審視通路間串擾以及這些串擾基因在通路互動調控中的作用。

圖3基因組座標的通路分析

在通路分析中,當下關注的靶標通常是調控關係、相互作用等功能注釋比較透徹的蛋白編碼基因。隨著數據的不斷積累,一些非編碼基因也出現了功能分析的需求。clusterProfiler4.0提供的通用策略可以實現對此類基因的功能分析。首先為緩解當前大量非編碼區域尚欠缺功能注釋的問題,我們課題組開發了ChIPseeker,分析測序數據中非編碼RNA、轉錄因數結合位點、轉座子等的基因組座標,將該座標和相鄰的基因關聯起來,然後利用clusterProfiler4.0完成鄰近基因的功能分析,為洞察非編碼基因生物學功能提供依據。聯合ChIPseeker和clusterProfiler可以對ChIP-seq,DNase-seq,ATAC-seq等各種染色體開放區域測序、RRBS等各種錶觀遺傳測序數據獲得的基因組座標進行功能分析。以圖3舉例展示,我們選取一個轉錄因數CBX6的ChIP-seq數据集,得到其結合序列的基因組座標,注釋其鄰近基因,確定其在哪些轉錄因數已知的互作基因集中富集,成功鑒定四個關鍵轉錄因數(圖3.綠色節點),以往文獻報導它們均與CBX6有功能的關聯,提示可能共同參與轉錄調控。這類ChIPseeker和clusterProfiler聯用策略,可以拓展到任意的基因區域集合,探索它們在各類調控因數靶基因中的富集情况,從而發現其關鍵的調控因數以及調控因數間的相互作用。也可以探索候選基因區域在GO,KEGG,Reactome,WikiPathways等注釋資訊中的富集,幫助發現參與調控的此類通路。

圖4比較多組數據功能譜

多處理實驗設計為全面理解分子機制、藥物作用等提供方法,但也給數據視覺化帶來挑戰。如圖4顯示,該研究有2種藥物處理、4個時間點,共8組數據,clusterProfiler4.0中我們加入了formula的支持,實現對多組數據對比分析。通過指定formula,如Gene~time+treatment,把基因按照時間點和不同的處理進行分組,分別對8組數據進行富集分析,最後以x軸為時間點,分面為不同的處理組,實現8組數據功能譜的清晰呈現和對比,明顯看出不同的藥物處理雖然起始效應存在顯著差异(0h,2h),但後期效應卻有很高的一致性(6h,24h)。

圖5使用ggplot2視覺化分析結果

上述圖1-4使用我們課題組開發的enrichplot包進行視覺化,考慮到相容用戶常用的數據操作軟件,clusterProfiler4.0同時實現了tidy介面,允許用戶使用dplyr動詞進行數據的操作和ggplot2進行數據的視覺化(圖5)。例如,圖5A展示了使用dplyr中的mutate為結果新增rich factor,然後使用ggplot2對富集結果以棒棒糖圖的形式呈現;圖5B則通過arrange,group_by和slice對GSEA富集結果進行排序、分組和切割,最終分別獲得上、下調通路中NES(歸一化富集分數)最大的五條通路,並使用柱狀圖進行呈現。銜接dplyr和ggplot2可以方便用戶更為靈活自主地對富集結果進行探索。

總結和展望

綜上,clusterProfiler4.0充分考慮現時富集分析中的覈心訴求,使用最新的功能注釋以保證結論及時反映最新共識,應對不同的組學數據綜合分析需求,clusterProfiler4.0允許銜接外部功能資料庫、支持多組數據的比較分析以及提供tidy介面助力結果解讀。現時,clusterProfiler已被綜合進超過30個的同行分析軟體中,助力不同場景下的功能分析,相信clusterProfiler4.0未來將發揮更大的作用,助力研究者更高效地解讀生物醫學數據及建立更可靠的機制假說。

掃二維碼|查看原文

原文連結:https://www.cell.com/the-innovation/fulltext/S2666-6758(21)00066-7

本文內容來自Cell Press合作期刊The Innovation第二卷第三期以Article發表的“clusterProfiler 4.0: A universal enrichment tool for interpreting omics data”(投稿:2021-05-08;接收:2021-06-29;線上刊出:2021-07-01)。

DOI:https://doi.org/10.1016/j.xinn.2021.100141

引用格式:Wu T.,Hu E.,Xu S.,et al.(2021).clusterProfiler 4.0: A universal enrichment tool for interpreting omics data.The Innovation.2(3),100141.

作者簡介

餘光創,博士,教授,博士生導師。南方醫科大學基礎醫學院生物資訊學系主任。研究方向為多組學數據綜合分析、數據視覺化。開發多款生物資訊學分析工具,包括clusterProfiler,GOSemSim,ChIPseeker,ggtree等,以第一作者或通訊作者發表6篇ESI高被引論文,入選愛思唯爾2020年中國高被引學者。

個人網頁:http://yulab-smu.top

原文刊載於【TheInnovation創新】公眾號

本文版權歸原作者所有,文章內容不代表平臺觀點或立場。如有關於文章內容、版權或其他問題請與我方聯系,我方將在核實情况後對相關內容做删除或保留處理!

資料標籤: 大數據 功能分析
本文標題: The,Innovation,|,clusterProfiler,聚焦海量組學數據覈心生物學意義
永久網址: https://www.laoziliao.net/doc/1656057271221114
相关資料
大連理工劉野/中科大陳昶樂​《JACS》,新型催化劑助力非交替聚酮的高效製備
作為最重要的合成聚合物,聚烯烴佔據了世界塑膠製品組分的半壁江山。囙此由聚烯烴製成的塑膠製品也被廣泛應用於包裝,電子,織物和泡沫等領域。然而,由碳氫構成的聚烯烴往往是非極性以及疏水的,囙此由聚烯烴製成的製品一般都具有疏水性並表現出對極性資料的
標籤: 劉野 聚烯烴
Joseph,Wang教授最新AFM,第一個全列印、雙功能、可伸縮、可穿戴的超級電容器,用於收集和存儲汗液中的能量
基於汗液的BSCs用於人體可穿戴設備或者是一個很好的選擇。基於以上研究背景,格勒諾布爾-阿爾卑斯大學的SergeCosnier教授與UCSD大學JosephWang教授合作,報導了第一個全列印、雙功能、可伸縮、可穿戴的超級電容器,用於收集和
標籤: 超級電容器 bfc
亮文解讀,|,健康土壤重要組成,土壤多樣性&作物多樣化
土壤群落複雜多樣,具有多種功能,而改變土壤微生物群落組成和特定物種的缺失可能會導致某些功能的喪失。間接干預措施是指創造有利於土壤生物生存滿足其代謝的環境;直接干預是針對性的管道直接調節特定的土壤微生物類群。
標籤: 生物多樣性 農業 土壤結構 農業發展 三農
《The,Astrophysical,Journal》刊發北航科研團隊在天體p過程中的實驗成果
當前研究認為p原子核主要通過γ過程來產生。γ過程涉及約2000個不穩定原子核,上萬個光解核反應,實驗量測難度大,絕大多數的核反應不得不借助統計理論模型來預測。鏑元素有7個天然同位素,開展質子俘獲量測時,相鄰同位素的和(p,n)反應道產物相同
標籤: 科學 原子核 科普