近日,計算機學院俞俊教授團隊的兩篇論文被多媒體領域的CCF A類會議ACM Multimedia 錄用為長文。ACM Multimedia是多媒體領域的國際頂級學術會議,也是中國計算機學會(CCF)推薦的A類國際學術會議,本屆為第29屆會議。
論文ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and Intra-modal Knowledge Integration提出一種模態內間知識協同引導的多模態預訓練模型,通過構建模態內間細粒度關聯的統一場景圖結構,并從中抽取包含跨模態知識子圖結構。在此基礎上,設計一種知識引導的“結構化遮蓋重構”機制,有針對性地進行知識引導的信息遮蓋重建,通過對模態內緊密相關上下文進行信息屏蔽以增強模型的跨模態語義關聯效果,有效解決現有多模態預訓練方法訓練難以實現細粒度語義對齊的難題。提出的ROSITA方法在3類不同的多模態任務6個數據集上驗證了方法的有效性。
該項研究由杭州電子科技大學(第一單位)、阿里巴巴達摩院、合肥工業大學合作完成。該論文第一作者為碩士研究生崔雨豪,在校期間2次獲得國家獎學金,并榮獲2021年度杭電“十佳大學生”榮譽稱號(全校唯一入選研究生),通訊作者為其指導教師余宙副教授,作者名單中還包含了俞俊老師等。
論文Effective De-identification Generative Adversarial Network for Face Anonymization提出一種基于去身份生成對抗網絡的人臉圖像身份隱私保護方法,通過將期望的人臉語義結構和風格信息翻譯為匿名圖像,有效解決現有方法難以平衡隱私保護水平和圖像可用性難題。人臉圖像身份隱私保護的目的在于有效地去除圖像的身份隱私信息并保留數據的可用性,在現實場景中具有諸多應用,例如隱私數據發布以及預防視覺偽造等。在日常生活中,常用模糊化或者打馬賽克的方式去除身份信息,但這種方法隱私保護能力有限而且損壞了圖像內容。隨著深度學習技術的發展,在生成對抗網絡的幫助下,基于人臉合成的圖像匿名方法有很大的發展潛力。然而,已有方法往往忽略數據處理后的可用性。本文提出了一種聯合人臉語義結構和風格信息的匿名化方法,主要利用所提出的生成器和對抗判別器的組合在隱私保護約束下完成匿名人臉合成,能夠有效提高模型的去識別能力并保持數據的可用性。與同類方法相比,取得了優異的效果。
該項研究的第一作者為媒體智能實驗室匡振中副教授,第二作者為碩士研究生劉回歸,通訊作者為俞俊教授。
計算機學院媒體智能實驗室(MIL)現有全職教師20余人,博士/碩士研究生100余名,圍繞人工智能、多媒體、計算機視覺的核心研究方向,近五年實驗室發表高水平期刊會議100篇,其中IEEE/ACM 會刊和CCF A類會議40余篇,10余篇入選ESI高被引論文,4次獲得IEEE權威期刊/會議最佳論文獎。團隊主持國家重點研發計劃、國家自然科學基金重點項目、科技創新2030重大項目課題在內的20余項國家級項目。因在相關領域的突出貢獻,研究成果分別獲2020年度浙江省自然科學一等獎和2018年度教育部自然科學二等獎。