2月18日,北京大學生物醫學前沿創新中心(BIOPIC)、生命科學學院、北京未來基因診斷高精尖創新中心(ICG)、生命科學聯合中心(CLS)張澤民實驗室聯合百奧智匯在期刊Genome Biology上發表了題為“iMAP: integration of multiple single-cell datasets by adversarial paired transfer networks”的生物資訊方法學論文,提出了基於深度自編碼器和生成式對抗神經網路的單細胞數據綜合的新方法iMAP。
利用單細胞RNA測序科技產生可靠新發現的重要途徑是綜合多來源的數据集。然而,不同批次實驗產生的數据集之間存在不可避免的科技差异,消除這些科技差异而保留不同實驗之間真實存在的生物學差异,是開發批量效應消除方法的主要挑戰。現時的主流批次效應消除方法都很難在兩者之間做到可靠的平衡。
張澤民實驗室博士後王東方等開發了一種新的方法iMAP,為單細胞數據的有效整合提供了新的思路。他們開發的iMAP方法結合了現時兩種最先進的無監督深度網絡結構—深度自編碼器和生成式對抗神經網路(GAN)的優勢。GAN的主要作用在於能够準確地將不同數据集、相同細胞類型的細胞的基因表達分佈進行混合,然而真實生物數据集的細胞組成十分複雜,可能存在不完全重合的細胞類型,相同細胞類型在不同數據集中的分佈比例也可能存在很大差异。囙此,iMAP首先構建了一種新的自編碼器結構來選取細胞的低維表示特徵,該特徵能够一定程度上消弭批次效應的影響,同時保留不同數据集之間真實存在的生物學差异,進而通過構建rwMNN細胞對,形成有效的自訓練數據指導後續GAN網絡進行正確的細胞基因表達分佈混合。與其他方法相比,iMAP既能匹配不同批次數據集中相同類型的細胞的基因表達分佈,又能識別各個數据集上特定的細胞類型。他們在十多個不同規模、不同測序科技產生的數据集上論證了iMAP方法的有效性與可靠性。與其他基於深度學習的方法相比,iMAP在大規模數据集上具有顯著的速度優勢。他們也將iMAP應用於腫瘤浸潤免疫細胞數据集的分析,通過綜合分別由Smart-seq2和10x Genomics科技產生的數据集發現了腫瘤微環境中新的細胞間相互作用。
iMAP算灋的基本框架
iMAP提供了免費Python套裝軟體(https://github.com/Svvord/iMAP),可供用戶實現單細胞轉錄組數據綜合。隨著單細胞測序科技的廣泛普及應用以及大量的大規模數据集的產生,iMAP可能成為綜合不同批次實驗產生的數據的有利工具,並為後續算灋的開發提供新的思路。
北京大學BIOPIC/生命科學學院博士後王東方和清華大學博士生侯思宇為該論文的共同第一作者,王東方和BIOPIC/生命科學學院張澤民教授為該論文的通訊作者。該課題得到了國家自然科學基金委、北京未來基因診斷高精尖創新中心及北京百奧智匯的資助。
本文轉載於北京大學新聞網(https://news.pku.edu.cn/index.htm),版權歸原作者所有,文章內容不代表平臺觀點或立場。如有關於文章內容、版權或其他問題請與我方聯系,我方將在核實情况後對相關內容做删除或保留處理!聯繫郵箱:yzhao@koushare.com