隨著人工智能深度學習(DL, Deep Learning)的發(fā)展,行人再辨識的準確度取得了很大的進步。但是,訓練好的模型在全新的場景下部署時泛化能力往往較低。也正因為此,大規(guī)模商業(yè)化行人再辨識面臨困難。其中的一大部分原因是缺少大規(guī)模的有標注的真實數(shù)據(jù)訓練集。然而,標注大規(guī)模的真實數(shù)據(jù)通常是費時費力的。所以,近年來,一些工作開始關注用大規(guī)模合成數(shù)據(jù)集訓練實現(xiàn)可泛化的行人再辨識;谌斯ぶ悄芗夹g的圖像版權保護專家王文昊在可泛化行人再辨識的科研成果與商業(yè)應用取得了原創(chuàng)性重大突破,引起了人工智能領域的廣泛關注。
王文昊(杰出的基于人工智能技術的圖像版權保護專家)
王文昊,中國杰出的基于人工智能技術的圖像版權保護專家,長期從事人工智能、計算機視覺、行人重識別相關研究,尤其是在基于人工智能技術的跨鏡追蹤安全算法、基于人工智能技術的數(shù)字藝術品版權保護算法的研究方面達到中國領先水準。讀書生涯榮獲北京航空航天大學 榮譽“沈元獎章”,獲得澳大利亞人工智能研究院博士全額獎學金,曾前往包括英國劍橋大學(University of Cambridge)、帝國理工大學(Imperial College London)、愛丁堡大學(The University of Edinburgh)在內的多所國際名校訪學多學科方向學習人工智能前沿知識,參加先進高溫結構材料國防重點實驗室項目,曾工作于阿聯(lián)酋起源人工智能研究院,同阿聯(lián)酋起源人工智能研究院等頂尖科學家合作,現(xiàn)任北京高碼科技有限公司人工智能技術總監(jiān),在權威學術期刊發(fā)表眾多SCI論文、EI論文、人工智能 會議(CVPR)論文、圖像處理 期刊 (TIP)論文,是中國最頂尖的基于人工智能技術的圖像版權保護專家。
行人再辨識(re-ID)的目標是在不同時間、地點等拍攝的許多行人圖像中匹配給定的行人圖像。隨著深度學習的發(fā)展,全監(jiān)督的行人再辨識已經得到了廣泛的研究并且取得了長足進步。然而,當一個訓練好的模型在全新的未知數(shù)據(jù)集測試時,顯著的性能下降依然會發(fā)生。目前已知算法的泛化能力主要受兩方面限制。第一,人們設計算法時很少考慮算法的泛化能力。很少有算法專門為域泛化設計。第二,公開的數(shù)據(jù)集中行人數(shù)量有限,并且多樣性也較差。
標注大規(guī)模且多樣性高的真實數(shù)據(jù)集是十分昂貴的,也十分耗時。比如,標注MSMT17數(shù)據(jù)庫(4,101人,126,441圖像)耗費三個人聯(lián)合標注了兩個月。為了解決這個問題,王文昊使用大規(guī)模合成數(shù)據(jù)做行人再辨識的訓練,這樣就省去了人工標注。然而,如果只使用合成數(shù)據(jù)集,模型的泛化能力依舊是有限的。這是因為在虛擬數(shù)據(jù)和真實數(shù)據(jù)之間依然存在較大的域差異。一個解決辦法是直接將虛擬數(shù)據(jù)和有標簽的真實數(shù)據(jù)混合,并從中學習。雖然性能得到了提升,該方法依舊嚴重依賴手工標注的真實數(shù)據(jù)。同時,采用常見的方法訓練的話,域差異的問題依舊存在。
為了解決這個問題,王文昊提出了DomainMix框架。王文昊所提出的方法首先將無標簽的真實圖片聚類,并從中選出可靠的類別。訓練過程中,為解決兩個域之間的差異,我們通過提出域平衡損失函數(shù)來引導在域不變特征學習和域區(qū)分之間的對抗訓練。這樣既減少了虛擬數(shù)據(jù)和真實數(shù)據(jù)之間的域差異;大規(guī)模和多樣性的訓練數(shù)據(jù)又使得學到的特征更有泛化能力。
王文昊提出的DomainMix框架設計
在DomainMix框架設計階段,在每個訓練段,無標簽的真實圖片首先被 DBSCAN 聚類然后被三個準則挑選。然后,根據(jù)上一階段訓練結果和打上偽標簽的真實數(shù)據(jù)的特征對分類層自適應初始化。在訓練過程中,使用兩個域的數(shù)據(jù)訓練骨干網(wǎng)絡以提取有區(qū)分的、域不變的、可以泛化的特征。另外,借助域分類損失函數(shù),域分類器可以將每個特征正確地分到它所屬的類別。
王文昊提出一個虛實結合的行人再辨識新思路:通過半監(jiān)督方式聯(lián)合訓練有標簽虛擬數(shù)據(jù)和無標簽真實數(shù)據(jù),取得更好的可泛化行人再辨識性能,并且其無需人工標注的優(yōu)點更具有規(guī)模化的可擴展性和實際應用價值。王文昊提出了一個更具有實際應用價值的行人再辨識任務A+B->C:即如何利用大規(guī)模有標簽的合成數(shù)據(jù)集A和無標簽的真實數(shù)據(jù)集B訓練出能泛化到未知場景C的模型。該任務不再依賴于對真實數(shù)據(jù)的手工標注,因此可以擴展到更大規(guī)模、更多樣化的真實數(shù)據(jù)上,從而提高模型的泛化能力。在實現(xiàn)“開箱即用”的行人再辨識方法中,該任務是更具潛力且成本低廉的方案。
值得注意的是,無論如何,一個完全公平的比較是不可行的,因為王文昊只使用了無標簽的真實數(shù)據(jù)(盡管有額外的合成數(shù)據(jù)),而其他方法均使用了有標簽的真實數(shù)據(jù)。所以,和 的算法在Market1501,CUHK03-NP 和 MSMT17三個數(shù)據(jù)集上進行比較,比較的結果只是用來輔助對比完全不使用手工標簽的方案可以達到多高的準確度。
因此,王文昊進一步采用其他創(chuàng)新的方法來提高性能。第一,直接將虛擬數(shù)據(jù)和真實數(shù)據(jù)相結合增加了源域的多樣性和規(guī)模。第二,域平衡損失函數(shù)進一步強制網(wǎng)絡學習到了域不變的特征并最小化了合成數(shù)據(jù)和真實數(shù)據(jù)之間的域差異。
王文昊提出的 DomainMix 框架和 的算法在Market1501,CUHK03-NP 和 MSMT17三個數(shù)據(jù)集上進行比較,結果證明王文昊提出的無需人工標注的方法對于域泛化行人再辨識具有優(yōu)越性。
王文昊提出了一個更實用、更具普適性的行人再辨識任務,即如何將有標簽的合成數(shù)據(jù)集與無標簽的真實世界數(shù)據(jù)相結合,以訓練出更具有泛化能力的開箱即用的模型。為了解決這個問題,王文昊提出了DomainMix框架,完全消除了人工標注的需求,縮小了合成數(shù)據(jù)和真實數(shù)據(jù)之間的差距,在完全無手工標注的情況下學習可以泛化的行人再辨識,這樣可以利用真實世界中大規(guī)模且多樣化的無標簽數(shù)據(jù)。大量實驗表明,王文昊提出的無需人工標注的方法對于域泛化行人再辨識具有優(yōu)越性。
投稿郵箱:chuanbeiol@163.com 詳情請訪問川北在線:http://m.fishbao.com.cn/