近日,電子資訊與電氣工程學院人工智慧研究院/電腦系的嚴駿馳副教授和其博士生楊學(交大學術之星提名得主)的研究成果《R3Det: Refined Single-Stage Detector with Feature Refinement for Rotating Object》位居Paper Digest網站評選的AAAI21最具影響力論文榜首。
該研究提出一個有向目標檢測網絡—R3Det,有效地解决了定位多角度物體及將物體從背景準確、快速分離的問題,能够很好地運用在文字檢測和遙感目標檢測任務中。
AAAI
AAAI(The AAAI Conference on Artificial Intelligence)是人工智慧領域頂級國際學術會議之一(2021年錄用率為21.4%,1692/7911)。Paper Digest是由東京工業大學的研究人員在2018年開發的一個基於人工智慧科技的學術文章摘要服務網站,維護著世界上最大的科技知識圖譜之一。Paper Digest團隊分析了近三年來在AAAI上發表的所有論文,並給出每年最具影響力的15篇論文清單,該清單根據研究論文和授權專利的引用自動構建,並且經常更新以反映最新的變化,是現時最具權威性的榜單之一。
研究概況
目標檢測是電腦視覺中的基本任務之一,有向目標檢測是指對給定影像進行準確目標定位並進行類型識別的任務,常用於車站/機場/博物館等場景的安檢和人臉身份驗證識別、卡證/檔案上的文字自動選取與識別,以及汽車、行人、交通指示牌等無人駕駛場景要素的檢測與識別等。然而,由於現實場景複雜多變,往往難以定位多角度目標,有向目標檢測一直是一項極具挑戰性的任務。該研究從大長寬比、密集排列和尺度變化劇烈的目標入手,提出了一種端到端的級聯有向目標檢測器—稱之為RefinedRotated RetinaNet Detector(R3Det)。R3Det通過從粗到細的漸進回歸管道來快速準確地檢測目標,並集成了一個特徵精修模塊來獲取更準確的特徵以提高目標檢測效能。
左:R3Det結構圖;右:特徵精修模塊
以上示意圖展示了R3Det的整體結構圖以及特徵精修模塊的覈心是通過逐點數特徵插值將當前精修邊界框的位置資訊重新編碼到對應的特徵點,實現特徵重構和對齊。
有向目標檢測網絡的提出,為解决有向目標檢測中特徵不對齊問題提供了創新性思路和方法,研究團隊已在三個遙感數据集DOTA、HRSC2016、UCAS-AOD以及一個場景文字數据集ICDAR2015上驗證了所提方法的有效性。在此基礎上,未來可將其應用到人臉識別、航拍影像、醫學影像、自動駕駛等場景中,進行更精確的有向目標檢測與分析。
遙感圖像上的檢測效果展示,R3Det可以精准定位機場中方向各异的飛機位置
課題組研究進展
近三年來,嚴駿馳副教授的課題組已經連續在人工智慧頂級會議ICCV19、ECCV20、AAAI21、CVPR21、ICML21、NeurIPS21、IJCV22上發表系列有向視覺目標檢測論文。同時,課題組已發佈兩個有向目標檢測開源框架MMRotate和AlphaRotate,成為有向目標檢測領域最受歡迎的開源框架,所開原始程式碼在Github開源社區累計star超過4000次。
論文連結
論文原文:https://ojs.aaai.org/index.php/AAAI/article/view/16426
PaperDigest:https://www.paperdigest.org/2022/02/most-influential-aaai-papers-2022-02/
MMRotate:https://github.com/open-mmlab/mmrotate
AlphaRotate:https://github.com/yangxue0827/RotationDetection
Demo:https://yangxue0827.github.io/#demos