自動化所研發全球首個圖文音三模態預訓練模型

日前，中科院自動化所提出了全球首個圖文音（視覺-文字-語音）三模態預訓練模型（OPT-Omni-Perception pre-Trainer），同時具備跨模態理解與跨模態生成能力，取得了預訓練模型突破性進展。

自GPT/Bert模型提出後，預訓練模型迎來了爆發式發展。多模態預訓練模型被廣泛認為是從限定領域的弱人工智慧邁向通用人工智慧的路徑探索，其具有在無監督情况下自動學習不同任務、並快速遷移到不同領域數據的强大能力。

近年來，互聯網音視頻數據呈高速增長，占比超過80%[1]，純文字的預訓練模型只涵蓋了互聯網數據中的較少部分，更豐富的語音、影像、視頻等數據並未被充分利用與學習，且人類的資訊獲取、環境感知、知識學習與表達，都是通過多模態資訊管道來執行的。OpenAI聯合創始人、首席科學家Ilya Sutskever在推特上發文表示，“人工智慧的長期目標是構建多模態神經網路，即AI能够學習不同模態之間的概念，從而更好地理解世界”。為實現更加通用的人工智慧模型，預訓練模型必然由單模態往多模態方向發展，將文字、語音、影像、視頻等多模態內容聯合起來進行學習。自動化所瞄準這一方向，成功構建視覺-文字-語音三模態預訓練模型。

現時，已有的多模態預訓練模型通常僅考慮兩個模態（如影像和文字，或者視頻和文字），忽視了周圍環境中普遍存在的語音資訊，並且模型極少兼具理解與生成能力，難以在生成任務與理解類任務中同時取得良好表現。

針對這些問題，自動化所此次提出的視覺-文字-語音三模態預訓練模型採用分別基於詞條級別（Token-level）、模態級別（Modality-level）以及樣本級別（Sample-level）的多層次、多任務子監督學習框架，更關注圖-文-音三模態數據之間的關聯特性以及跨模態轉換問題，對更廣泛、更多樣的下游任務提供模型基礎支撐。

該模型不僅可實現跨模態理解（比如圖像識別、語音辨識等任務），也能完成跨模態生成（比如從文字生成影像、從影像生成文字、語音生成影像等任務）。靈活的自監督學習框架可同時支持三種或任兩種模態弱關聯數據進行預訓練，有效降低了多模態數據收集與清洗成本。

引入語音模態後的多模態預訓練模型，可以突破性地直接實現三模態的統一表示，特別地首次實現了“以圖生音”和“以音生圖”，如下方視頻所示：

以圖生音示例

以音生圖示例

三模態預訓練模型基本原理

團隊首次提出了視覺-文字-語音三模態預訓練模型，實現了三模態間相互轉換和生成。其覈心原理是視覺、文字、語音不同模態通過各自編碼器映射到統一語義空間，然後通過多頭自注意力機制（Multi-head Self-attention）學習模態之間的語義關聯以及特徵對齊，形成多模態統一知識表示，再利用編碼後的多模態特徵，然後通過多頭自注意力機制進行通過解碼器分別生成文字、影像和語音。這裡三模態互相轉化和相互生成示意如圖1所示：

圖1.圖文音三模態相互轉換與生成

多層次多工自監督預訓練學習

此次提出的三模態預訓練模型由單模態編碼器、跨模態編碼器和跨模態解碼器構成。針對圖文音三模態數據，我們提出三級預訓練自監督學習方式：詞條級別（Token-level，Modality-level），模態級（Modality-level masking）以及樣本級別（Sample-level masking）。具體包括：

（1）詞條級別（Token-level）學習

a.文字遮罩建模（Masked Language Modeling）：隨機掩蓋一些文字單詞，需要模型根據上下文預測被掩蓋的單詞是什麼；

b.視覺遮罩建模（Masked Vision Modeling）：隨機掩蓋一些影像區域，讓模型預測被掩蓋的區域；

c.語音遮罩建模（Masked Audio Modeling）：隨機掩蓋一些語音詞條（token），模型需要預測被掩蓋的詞條（token）是什麼。

（2）模態級別（Modality-level）學習

包括文字重構和影像重構兩個任務，分別學習重構輸入文字和影像。團隊引入模態級別遮罩（Modality-Level Masking）機制隨機地掩蓋一個模態資訊，使得模型需要根據其他模態資訊對當前模態進行重構，從而能够進行下游的跨模態生成任務。這個機制也帶來另一個好處—它使我們的模型不僅能够處理三模態輸入，也能處理兩模態輸入，從而適應下游的兩模態任務。

（3）樣本級別（Sample-level）學習

該預訓練任務是通過對每個樣本隨機地替換三種模態資訊中的一種或兩種，讓模型來預測替換哪些模態。

實驗結果

我們主要採用Open Images數据集作為預訓練數據，該數據包含影像、文字與音訊數據。此外我們也額外地使用兩模態數據，如Conceptual Caption圖文數据集，Visual Genome圖文數据集等。當加入額外的兩模態數據時，這些兩模態與三模態數據則被隨機混合進行訓練。

研究團隊主要進行了以下兩方面的實驗驗證：

（1）圖文音三模態關聯編碼與相互生成效能

分別在多模態融合的影像分類、任意兩模態的相互檢索以及語音辨識任務中，與常規全監督方法進行了性能比較，均取得了效能上的顯著提升。其中在多模態融合的影像分類任務中，與常規全監督的Resnet101網絡模型相比，性能提升5個百分點；加入語音模態資訊能够明顯提升以文搜圖的效能，驗證了聯合建模視覺-文字-語音三模態資訊的必要性。

（2）多模態下游任務效能

分別在跨模態檢索、視覺問答與影像語義描述任務中，與當前最新的圖文兩模態預訓練模型進行了性能比較，在補充了圖文兩模態數據參與預訓練的模型上，取得了具有競爭力甚至更好的實驗性能。

三模態預訓練模型的提出將改變當前單一模型對應單一任務的人工智研發範式，三模態圖文音的統一語義表達將大幅提升文字、語音、影像和視頻等領域的基礎任務效能，並在多模態內容的理解、蒐索、推薦和問答，語音辨識和合成，人機交互和無人駕駛等商業應用中具有潜力巨大的市場價值。“大數據+大模型+多模態”多工統一學習將引領就科技發展的潮流。

參考文獻

1.音視頻占比4/5，高速增長.

http://www.199it.com/archives/467963.html

2. OPT: Omni-Perception Pre-Trainer for Cross-Modal Understanding and Generation.Jing Liu，Xinxin Zhu，Fei Liu，Longteng Guo，Zijia Zhao，Mingzhen Sun，Hanqing Lu，Weining Wang，Jiajun Zhang，Shiyu Zhou and Jinqiao Wang.

http://arxiv.org/abs/2107.00249

本文版權歸原作者所有，文章內容不代表平臺觀點或立場。如有關於文章內容、版權或其他問題請與我方聯系，我方將在核實情况後對相關內容做删除或保留處理！

相关資料

數學院可積系統及相關領域的交叉研究（常向科）

水生所從浮游動物體長視角揭示魚捕食對浮游動物牧食藻類的影響

Nature子刊，|上海交通大學俞章盛等開發了一種羽量級的算灋GapClust以檢測稀有細胞類型

中科大陳春華《ACS，AMI》，空心球結構的鈉離子電池正極資料！

母蟹什麼時候蟹黃最多，螃蟹什麼部位不能吃

天然鑽石價格高眾所周知，合成鑽石也具有很多優勢！

武大，|，深空探測之原位資源利用領域論文分析

孩子上學居住證需要父母雙方的嗎？