日前,電腦與信息工程學院趙子平老師及其合作者在《Neural Networks》上發表了題為“Combininga parallel 2D CNN with a self-attention Dilated Residual Network for CTC-based discrete speech emotion recognition”的學術論文。
該文提出了一種聯合並行卷積神經網路和自注意力殘差卷積網絡搭配CTC(Connectionist temporal classification)損失函數的語音情感識別方法。首先,將原始的語音訊號轉化成對數梅爾頻譜圖然後做二階差分組成3維的對數梅爾頻譜圖,以獲取它們動態的時間和頻率資訊。其次,利用並行的卷積網絡進行空間特徵選取,再次,使用殘差擴張卷積網絡來學習語音特徵種的長時動態特徵。接下來,研究了一種自注意機制,該機制在訊號幀和通道兩個層次上聚合情感資訊,最後使用CTC損失作為優化目標,解碼得到情感類別。本方法在國際公開的情感數据集IEMOCAP(Interactive Emotional Dyadic Motion Capture)和FAU-AEC(FAU-Aibo Emotion corpus)進行實驗驗證,實驗結果表明,該方法能够有效地提升情感識別的效能。該文具有很强的綜合性,充分利用了深度學習中的各種方法,體現了認知與情感計算團隊的研究特色。
電腦與信息工程學院副院長趙子平老師是該文的第一作者,指導的碩士研究生李啟飛為該文的共同第一作者。該研究得到國家自然科學面上項目(No:62071330)、國家自然科學基金青年項目(No:61702370)與天津市自然科學基金重點專案(No:18JCZDJC36300)等專案資助。
論文連結:https://doi.org/10.1016/j.neunet.2021.03.013
本文版權歸原作者所有,文章內容不代表平臺觀點或立場。如有關於文章內容、版權或其他問題請與我方聯系,我方將在核實情况後對相關內容做删除或保留處理!