Nature,Methods(IF=30.8)∣哈佛大學發表單細胞測序(scRNA-seq)的優勢及局限總結

2021-06-21年NatureMethods上發表,單細胞轉錄組測序的優勢及局限總結。作者是美國哈佛大學醫學院PeterV.Kharchenko教授。隨著單細胞轉錄組測序科技的飛速發展,湧現出各種新興的資料分析方法,用於研究例如細胞類型的組成,發育動態的基因調控等。本文綜述了scRNA-seq的資料分析基本步驟,全面總結了這些不同算灋資料分析的原理及優勢與局限性。

2021-06-21年Nature Methods(IF=30.8)上發表,單細胞轉錄組測序(scRNA-seq)的優勢及局限總結。作者是美國哈佛大學醫學院Peter V. Kharchenko教授。

隨著單細胞轉錄組測序科技(scRNA-seq)的飛速發展,湧現出各種新興的資料分析方法,用於研究例如細胞類型的組成,發育動態的基因調控等。本文綜述了scRNA-seq的資料分析基本步驟,全面總結了這些不同算灋資料分析的原理及優勢與局限性。

scRNA-seq的關鍵點

作者總結了scRNA-seq科技的基本資料分析步驟,雖然分析方法多種多樣,但都包含3個部分:檢測資訊的統計學模型,數據的降維處理,表達譜的展示(如最常見的是離散的轉錄亞群)

圖1:scRNA-seq科技的關鍵預處理方法

圖2:scRNA-seq科技的關鍵資料分析方法

scRNA-seq科技總結

01細胞統計視圖(Statistical view of a cell)

單細胞轉錄組測序(scRNA-seq)中每個細胞的起始轉錄本很少,捕獲到的不同單細胞的轉錄本量可能相差一個數量級,囙此單細胞轉錄組的檢測存在很大的不確定性。當然,只要細胞量足够多,就能彌補單個細胞轉錄本捕獲導致的不確定性(圖3b)。

由於單細胞數據的不確定性,從概率的角度研究基因表達狀態可能更有實際意義(圖3c)。

scRNA-seq的統計模型一般是基於負二項模型,包含複雜的平均值-方差關係,或引入混合組分來處理scRNA-seq中大量出現的零值。UMI的廣泛應用,使零值的實際比例低於mRNA抽樣時期望的比例。

現時的統計模型一般都假設scRNA-seq是對單個細胞中mRNA轉錄本的隨機抽樣,但當來自不同批次的單細胞時,真實的抽樣率會呈現基因特异性偏倚(gene-specific bias)。

如果樣本來自同一建庫測序方法,這種基因特异性抽樣偏倚就影響不大;但跨平臺樣本的差异表達分析就會出現上述基因特异性偏倚。

圖3:scRNA-seq科技的基本點

02轉錄狀態比較

scRNA-seq數據的統計模型决定了任意兩群細胞之間的基因轉錄水准是否存在統計學差异。基因差异表達檢驗方法包括參數模型及非參數模型。

當比較的細胞群體較大(例如>100細胞)時,使用標準非參數檢驗(例如Wilcoxon檢驗),比參數模型的統計效能更好,且具有更少的假設。

統計功效新增的必然結果是,比較足够大的群體之間的平均表達將報告大多數基因為差异表達(圖3d)。此時,細胞亞群的定義及差异表達的數量級就顯得更為重要了。

差异測試對批次效應特別敏感,大多數現有方法可以控制簡單的批次結構。分析複雜的實驗設計,例如涉及多個樣本類別或匹配樣本的實驗設計,需要對協變數進行更精細的控制。雖然這仍然是一個活躍的研究領域,但主流的辦法是,放弃了細胞類型之間的單細胞變異,並利用了bulk RNA-seq測試。

轉錄狀態的比較還包括對細胞表達譜的相似性及細胞之間距離的定量,這些是細胞分群、譜系推斷及二維視覺化等下游分析的基礎。距離定量方法分為兩類:一類為直接衡量基因轉錄差异的傳統距離(如Euclidean、L1和Canberra),另一類為從統計偏差的角度衡量兩細胞群是否等同(equality)。前者無法區分不同維度上的變化,而後者高度依賴測序深度和細胞覆蓋度

03尋求降維

scRNA-seq最常用的降維方法是主成分分析(Principal component analysis,PCA),即尋找基因表達轉錄本的有限個線性組合,使之盡可能多地捕捉數据集的差异。top主成分則作為低維平面中細胞之間的主要轉錄差异。

top主成分重點關注高表達基因的細微波動。多數分析方法基於所有觀察到的轉錄本來估算方差期望(圖3g)。如果某基因的方差高於其期望值,其表達模式就更可能區分主要細胞亞群(圖3f-i)。

主成分分析統計模型也可以用於對每個基因的方差進行歸一化處理,以計算超出量測模型期望的殘差方差。由於方差估計是基於所有被測細胞,囙此轉錄本的最高變化會集中在最劇烈的亞群差异(例如上皮細胞vs免疫細胞),而更微妙的差异(例如CD4和CD8 T細胞)可能需要對分群進行重分析。

大量的零值使得各種變換結果都會出現一個尖峰分佈(圖3j)。此時,top主成分也會捕獲高測序覆蓋度與低測序覆蓋度細胞之間的差异(是一種科技誤差)。減輕這一誤差的方法為减少零值的權重或對每個細胞的維度進行回歸(Regress out)。

轉錄本計數和降維之間的映射不一定局限於線性關係。為了映射更多複雜的非線性關係,科學家嘗試使用自編碼的神經網路(Autoencoder neural networks),用於學習複雜的非線性多元函數。

04近鄰圖描述細胞基因表達流形近似

近鄰圖(Neighbor graphs)的計算及分析的優勢,使其被大量用於scRNA-seq分析。近鄰圖能强化下游分析,例如亞群分析、動態軌跡或數据集映射等。當數據集中含有大量的亞群時,不同亞群的基因表達可能達到數量級的巨大差异,此時的線性降維方法如主成分分析(PCA)需要至少2個維度來反映亞群在數據空間的相對位置。

05細胞聚類(Clustering cells)

細胞聚類能有效地探索和解釋數據,指導基因差异表達等下游分析。但細胞聚類是一種近似管道,除了轉錄相似性以外,沒有更多的生物學意義。細胞聚類可區分不同細胞類型,捕捉同一細胞類型中微妙的轉錄變化,或是基於弱隨機誤差來過度劃分某群完全一致的細胞。多數算灋都允許用戶經驗性地調整分辯率(圖4b,4c)。

聚類分辯率取決於對數據的解讀水准,例如某些情况需要將T細胞歸於單一分群,而其他情况可能需要進一步細分T細胞亞群。分層聚類演算法(hierarchical clustering method)能關聯不同分辯率下的聚類結果,有助於描述大類群和細分亞群之間的關係。當細胞週期或細胞活性等導致轉錄差异時,簡單的分層聚類演算法就不適用了(圖4d-g)。

圖4:對複雜倍數的近似及劃分

06動態過程分析

在很多生物學背景如器官發育或刺激響應中,轉錄動態是首要關注的問題。現時的scRNA-seq是用於捕捉某一特定時間點的細胞狀態的快照。但一些基本的轉錄動態特徵是可以推斷的。例如螞蟻的照片,通過跟踪蟻群密度的細絲,可描繪螞蟻的路徑(圖5a)。最優路徑的蒐索通常需要假設特定拓撲結構,例如樹形(主圖問題,Principal graph problem,圖5c,d)或曲線形(主曲線問題,Principal curve problem)。

這種在低維空間追跡細胞密度的一般方法,最初由Monocle使用,已被多種方法進一步細化,並逐步成為最常用的推斷轉錄動態的方法,成功地用於捕捉分支細胞的分化軌跡和其他很多生物學背景下的動態過程。

首先確定細胞亞群,嚴格限定用於軌跡推斷的數據範圍十分重要。在解釋結果時,時刻牢記軌跡推斷的某些細節可能具有不確定性,這種不確定性可能來源於表現某一特徵的細胞亞群的數量有限。應時刻牢記,聚類或降維算灋也可能對軌跡推斷結果產生顯著影響

足够大的樣本量,使scRNA-seq數據能覆蓋某群細胞所有可能的中間狀態。但在伴隨發育時間改變或外部刺激的情况下(例如光脈衝啟動神經元),單一數据集的細胞會呈現離散的聚類而非連續的軌跡。

基於細胞密度的”螞蟻踪迹“(圖5b)對軌跡的細節有很多不確定性,因為相同密度時可能是完全不同的情况。RNA速率(RNA velocity)是反映mRNA動力學的一個模型,可通過scRNA-seq定量pre-mRNA(未剪接)和成熟mRNA(剪接過)之間的相對豐度來獲得RNA速率。RNA速率能揭示複雜的軌跡流形式,如分支、迴圈或逆流(圖5c,5f)。RNA速率方法顯示,通過更詳細的考量細胞的靜態分子快照,可以推斷出細胞基因轉錄的時間動態。已開發出更精細的參數擬合科技來提高這種推理的準確性。

圖5:動態過程的近似類比

07展望未來:綜合樣本、分子模式和物理空間

單細胞基因組的大部分分析工作旨在,克服數據固有的稀疏、嘈雜但富含資訊的特性。隨著scRNA-seq科技的穩健性和可及性的逐年增加,scRNA-seq已成為生物學研究的重要工具。解决現實世界的問題需要更細化的實驗設計。例如,疾病研究往往需要對不同分組的個體樣本差异進行比較,而其他研究可能涉及縱向樣本收集、多種組織或樣本類型的比較。scRNA-seq科技的進展促進了其他分子形式的單細胞檢測,例如DNA甲基化、染色質可及性或蛋白質豐度等。空間轉錄組學則能提供每個細胞的寶貴資訊

比對(Align)單細胞數据集已有很多方法,用於鑒定不同數据集裏的相應細胞類群。大多數方法依賴於相同的歸一化和降維步驟,拓展近鄰圖使之能映射來自不同數据集的細胞,來對下游進行綜合分析。

總結點評

單細胞轉錄組測序科技(scRNA-seq)飛速發展,各種新興的資料分析方法不斷湧現,是研究細胞聚類,發育動態調控的重要工具

作者全面總結了scRNA-seq的資料分析方法及優劣,例如細胞統計視圖(Statistical view of a cell)、轉錄狀態比較、尋求降維、近鄰圖(Neighbor graphs)描述細胞基因表達流形近似、細胞聚類(Clustering cells)、動態過程分析、並對綜合樣本、分子模式和物理空間進行了展望。

原文刊載於【藥學前沿進展】公眾號

本文版權歸原作者所有,文章內容不代表平臺觀點或立場。如有關於文章內容、版權或其他問題請與我方聯系,我方將在核實情况後對相關內容做删除或保留處理!

本文標題: Nature,Methods(IF=30.8)∣哈佛大學發表單細胞測序(scRNA-seq)的優勢及局限總結
永久網址: https://www.laoziliao.net/doc/1656057677044963
相关資料
山大基礎醫學院於書彥教授團隊在The,Journal,of,Clinical,Investigation發表抑鬱症研究新成果
山東大學基礎醫學院博士研究生李曄為第一作者,山東大學基礎醫學院生理與病理生理學系於書彥教授為通訊作者,山東大學為第一作者單位和唯一通訊作者單位。抑鬱症已成為現時發病最廣泛的神經、精神類疾病,但其機制迄今尚未闡明,臨床缺乏有效的治療措施。
標籤: 精神抑鬱症 海馬
華中農業大學構建智慧響應型“分子狀態轉換”納米顆粒
研究表明,藥物分子的活性和利用度與其在溶液中的分子狀態息息相關。卟啉類藥物具有的大π共軛結構分子在溶液中處於分散狀態時,具有良好的光動力治療活性;而在聚集狀態時,其光動力治療性質遺失轉而產生高的光熱效應,實現腫瘤的光熱治療。
標籤: 腫瘤 光動力
蘭州化物所在超級電容器應用拓展方面取得新進展
然而,超級電容器相對於二次電池能量密度較低,在商用電化學儲能器件中的市場占比較低。囙此,為了推進超級電容器的發展,在提高超級電容器的能量密度的同時,需要開發具有特殊功能的超級電容器來拓展其應用領域。
標籤: 超級電容器
國家生態科學資料中心聯合海北站在Agricultural,and,Forest,Meteorology發表時變參數提高碳迴圈年際變異類比精度的文章
探究陸地生態系統碳迴圈的年際變異對於理解氣候-碳迴圈迴響至關重要。碳庫IAV體現了生態系統對氣候變化的不同響應機制,其類比結果對參數化高度敏感。因而,大多數陸地碳迴圈模型採用固定參數,忽略其時間變化,部分地導致了IAV類比的不確定性。
標籤: 碳迴圈 生態科學 科學 生態系統