基於深度學習的行人重識別研究綜述(下)

.. 雷鋒網 AI 科技評論按:本文作者羅浩為浙江大學博士生,本文為羅浩為雷鋒網 AI 科技評論撰寫的獨家稿件,未經許可不得轉載。

3、基於局部特徵的ReID方法

早期的ReID研究大家還主要關注點在全局的global feature上,就是用整圖得到一個特徵向量進行圖像檢索。但是後來大家逐漸發現全局特徵遇到了瓶頸,於是開始漸漸研究起局部的local feature。常用的提取局部特徵的思路主要有圖像切塊、利用骨架關鍵點定位以及姿態矯正等等。

(1)圖片切塊是一種很常見的提取局部特徵方式[12]。如下圖所示,圖片被垂直等分為若干份,因為垂直切割更符合我們對人體識別的直觀感受,所以行人重識別領域很少用到水平切割。


之後,被分割好的若干塊圖像塊按照順序送到一個長短時記憶網絡(Long short term memory network, LSTM),最後的特徵融合了所有圖像塊的局部特徵。但是這種缺點在於對圖像對齊的要求比較高,如果兩幅圖像沒有上下對齊,那麼很可能出現頭和上身對比的現象,反而使得模型判斷錯誤。

(2)為了解決圖像不對齊情況下手動圖像切片失效的問題,一些論文利用一些先驗知識先將行人進行對齊,這些先驗知識主要是預訓練的人體姿態(Pose)和骨架關鍵點(Skeleton) 模型。論文[13]先用姿態估計的模型估計出行人的關鍵點,然後用仿射變換使得相同的關鍵點對齊。如下圖所示,一個行人通常被分為14個關鍵點,這14個關鍵點把人體結果分為若干個區域。為了提取不同尺度上的局部特徵,作者設定了三個不同的PoseBox組合。之後這三個PoseBox矯正後的圖片和原始為矯正的圖片一起送到網絡里去提取特徵,這個特徵包含了全局信息和局部信息。特別提出,如果這個仿射變換可以在進入網絡之前的預處理中進行,也可以在輸入到網絡後進行。如果是後者的話需要需要對仿射變換做一個改進,因為傳統的放射變化是不可導的。為了使得網絡可以訓練,需要引入可導的近似放射變化,在本文中不贅述相關知識。


(3)CVPR2017的工作Spindle Net[14]也利用了14個人體關鍵點來提取局部特徵。和論文[12]不同的是,Spindle Net並沒有用仿射變換來對齊局部圖像區域,而是直接利用這些關鍵點來摳出感興趣區域(Region of interest, ROI)。Spindle Net網絡如下圖所示,首先通過骨架關鍵點提取的網絡提取14個人體關鍵點,之後利用這些關鍵點提取7個人體結構ROI。網絡中所有提取特徵的CNN(橙色表示)參數都是共享的,這個CNN分成了線性的三個子網絡FEN-C1、FEN-C2、FEN-C3。對於輸入的一張行人圖片,有一個預訓練好的骨架關鍵點提取CNN(藍色表示)來獲得14個人體關鍵點,從而得到7個ROI區域,其中包括三個大區域(頭、上身、下身)和四個四肢小區域。這7個ROI區域和原始圖片進入同一個CNN網絡提取特徵。原始圖片經過完整的CNN得到一個全局特徵。三個大區域經過FEN-C2和FEN-C3子網絡得到三個局部特徵。四個四肢區域經過FEN-C3子網絡得到四個局部特徵。之後這8個特徵按照圖示的方式在不同的尺度進行聯結,最終得到一個融合全局特徵和多個尺度局部特徵的行人重識別特徵。


(4)論文[15]提出了一種全局-局部對齊特徵描述子(Global-Local-Alignment Descriptor, GLAD),來解決行人姿態變化的問題。與Spindle Net類似,GLAD利用提取的人體關鍵點把圖片分為頭部、上身和下身三個部分。之後將整圖和三個局部圖片一起輸入到一個參數共享CNN網絡中,最後提取的特徵融合了全局和局部的特徵。為了適應不同分辨率大小的圖片輸入,網絡利用全局平均池化(Global average pooling, GAP)來提取各自的特徵。和Spindle Net略微不同的是四個輸入圖片各自計算對應的損失,而不是融合為一個特徵計算一個總的損失。


(5)以上所有的局部特徵對齊方法都需要一個額外的骨架關鍵點或者姿態估計的模型。而訓練一個可以達到實用程度的模型需要收集足夠多的訓練數據,這個代價是非常大的。為了解決以上問題,AlignedReID[16]提出基於SP距離的自動對齊模型,在不需要額外信息的情況下來自動對齊局部特徵。而採用的方法就是動態對齊算法,或者也叫最短路徑距離。這個最短距離就是自動計算出的local distance。


這個local distance可以和任何global distance的方法結合起來,論文[15]選擇以TriHard loss作為baseline實驗,最後整個網絡的結構如下圖所示,具體細節可以去看原論文。


4.基於視頻序列的ReID方法

目前單幀的ReID研究還是主流,因為相對來說數據集比較小,哪怕一個單GPU的PC做一次實驗也不會花太長時間。但是通常單幀圖像的信息是有限的,因此有很多工作集中在利用視頻序列來進行行人重識別方法的研究[17-24]。基於視頻序列的方法最主要的不同點就是這類方法不僅考慮了圖像的內容信息,還考慮了幀與幀之間的運動信息等。

基於單幀圖像的方法主要思想是利用CNN來提取圖像的空間特徵,而基於視頻序列的方法主要思想是利用CNN 來提取空間特徵的同時利用遞歸循環網絡(Recurrent neural networks, RNN)來提取時序特徵。上圖是非常典型的思路,網絡輸入為圖像序列。每張圖像都經過一個共享的CNN提取出圖像空間內容特徵,之後這些特徵向量被輸入到一個RNN網絡去提取最終的特徵。最終的特徵融合了單幀圖像的內容特徵和幀與幀之間的運動特徵。而這個特徵用於代替前面單幀方法的圖像特徵來訓練網絡。

視頻序列類的代表方法之一是累計運動背景網絡(Accumulative motion context network, AMOC)[23]。AMOC輸入的包括原始的圖像序列和提取的光流序列。通常提取光流信息需要用到傳統的光流提取算法,但是這些算法計算耗時,並且無法與深度學習網絡兼容。為了能夠得到一個自動提取光流的網絡,作者首先訓練了一個運動信息網絡(Motion network, Moti Nets)。這個運動網絡輸入為原始的圖像序列,標籤為傳統方法提取的光流序列。如下圖所示,原始的圖像序列顯示在第一排,提取的光流序列顯示在第二排。網絡有三個光流預測的輸出,分別為Pred1,Pred2,Pred3,這三個輸出能夠預測三個不同尺度的光流圖。最後網絡融合了三個尺度上的光流預測輸出來得到最終光流圖,預測的光流序列在第三排顯示。通過最小化預測光流圖和提取光流圖的誤差,網絡能夠提取出較準確的運動特徵。

AMOC的核心思想在於網絡除了要提取序列圖像的特徵,還要提取運動光流的運動特徵,其網絡結構圖如下圖所示。AMOC擁有空間信息網絡(Spatial network, Spat Nets)和運動信息網絡兩個子網絡。圖像序列的每一幀圖像都被輸入到Spat Nets來提取圖像的全局內容特徵。而相鄰的兩幀將會送到Moti Nets來提取光流圖特徵。之後空間特徵和光流特徵融合后輸入到一個RNN來提取時序特徵。通過AMOC網絡,每個圖像序列都能被提取出一個融合了內容信息、運動信息的特徵。網絡採用了分類損失和對比損失來訓練模型。融合了運動信息的序列圖像特徵能夠提高行人重識別的準確度。

論文[24]從另外一個角度展示了多幀序列彌補單幀信息不足的作用,目前大部分video based ReID方法還是不管三七二十一的把序列信息輸給網絡,讓網絡去自己學有用的信息,並沒有直觀的去解釋為什麼多幀信息有用。而論文[24]則很明確地指出當單幀圖像遇到遮擋等情況的時候,可以用多幀的其他信息來彌補,直接誘導網絡去對圖片進行一個質量判斷,降低質量差的幀的重要度。

如上圖,文章認為在遮擋較嚴重的情況下,如果用一般的pooling會造成attention map變差,遮擋區域的特徵會丟失很多。而利用論文的方法每幀進行一個質量判斷,就可以着重考慮那些比較完整的幾幀,使得attention map比較完整。而關鍵的實現就是利用一個pose estimation的網絡,論文叫做landmark detector。當landmark不完整的時候就證明存在遮擋,則圖片質量就會變差。之後pose feature map和global feature map都同時輸入到網絡,讓網絡對每幀進行一個權重判斷,給高質量幀打上高權重,然後對feature map進行一個線性疊加。思路比較簡單但是還是比較讓人信服的。

5.基於GAN造圖的ReID方法

ReID有一個非常大的問題就是數據獲取困難,截止CVPR18 deadline截稿之前,最大的ReID數據集也就小几千個ID,幾萬張圖片(序列假定只算一張)。因此在ICCV17 GAN造圖做ReID挖了第一個坑之後,就有大量GAN的工作湧現,尤其是在CVPR18 deadline截稿之後arxiv出現了好幾篇很好的paper。

論文[25]是第一篇用GAN做ReID的文章,發表在ICCV17會議,雖然論文比較簡單,但是作為挖坑鼻祖引出一系列很好的工作。如下圖,這篇論文生成的圖像質量還不是很高,甚至可以用很慘來形容。另外一個問題就是由於圖像是隨機生成的,也就是說是沒有可以標註label可以用。為了解決這個問題,論文提出一個標籤平滑的方法。實際操作也很簡單,就是把label vector每一個元素的值都取一樣,滿足加起來為1。反正也看不出屬於哪個人,那就一碗水端平。生成的圖像作為訓練數據加入到訓練之中,由於當時的baseline還不像現在這麼高,所以效果還挺明顯的,至少數據量多了過擬合能避免很多。

論文[26]是上一篇論文的加強版,來自同一個課題組。前一篇的GAN造圖還是隨機的,在這一篇中變成了可以控制的生成圖。ReID有個問題就是不同的攝像頭存在着bias,這個bias可能來自光線、角度等各個因素。為了克服這個問題,論文使用GAN將一個攝像頭的圖片transfer到另外一個攝像頭。在GAN方面依然還是比較正常的應用,和前作不同的是這篇論文生成的圖是可以控制,也就是說ID是明確的。於是標籤平滑也做了改進,公式如下:

其中是ID的數量。是手動設置的平滑參數,當時就是正常的one-hot向量,不過由於是造的圖,所以希望label不要這麼hard,因此加入了一個平滑參數,實驗表明這樣做效果不錯。最終整體的網絡框架如下圖:

除了攝像頭的bias,ReID還有個問題就是數據集存在bias,這個bias很大一部分原因就是環境造成的。為了克服這個bias,論文[27]使用GAN把一個數據集的行人遷移到另外一個數據集。為了實現這個遷移,GAN的loss稍微設計了一下,一個是前景的絕對誤差loss,一個是正常的判別器loss。判別器loss是用來判斷生成的圖屬於哪個域,前景的loss是為了保證行人前景儘可能逼真不變。這個前景mask使用PSPnet來得到的,效果如下圖。論文的另外一個貢獻就是提出了一個MSMT17數據集,是個挺大的數據集,希望能夠早日public出來。

ReID的其中一個難點就是姿態的不同,為了克服這個問題論文[28]使用GAN造出了一系列標準的姿態圖片。論文總共提取了8個pose,這個8個pose基本涵蓋了各個角度。每一張圖片都生成這樣標準的8個pose,那麼pose不同的問題就解決。最終用這些圖片的feature進行一個average pooling得到最終的feature,這個feature融合了各個pose的信息,很好地解決的pose bias問題。無論從生成圖還是從實驗的結果來看,這個工作都是很不錯的。這個工作把single query做成了multi query,但是你沒法反駁,因為所有的圖都是GAN生成的。除了生成這些圖需要額外的時間開銷以外,並沒有利用額外的數據信息。當然這個工作也需要一個預訓練的pose estimation網絡來進行pose提取。

總的來說,GAN造圖都是為了從某個角度上解決ReID的困難,缺啥就讓GAN來補啥,不得不說GAN還真是一個強大的東西。

後言:以上就是基於深度學習的行人重識別研究綜述,選取了部分代表性的論文,希望能夠幫助剛進入這個領域的人快速了解近幾年的工作。當然還有很多優秀的工作沒有放進來,ICCV17的ReID文章就有十幾篇。這幾年加起來應該有上百篇相關文章,包括一些無監督、半監督、cross-domain等工作都沒有提到,實在精力和能力有限。

插播預告 

本周四晚上雷鋒網 AI 科技評論將推出一場由清華大學在讀博士孫奕帆分享的 GAIR 大講堂,主題為「行人再識別論文及最新相關進展介紹」,點擊鏈接了解詳情並報名。

參考文獻

[1] Mengyue Geng, Yaowei Wang, Tao Xiang, Yonghong Tian. Deep transfer learning for person reidentification[J]. arXiv preprint arXiv:1611.05244, 2016.

[2] Yutian Lin, Liang Zheng, Zhedong Zheng, YuWu, Yi Yang. Improving person re-identification by attribute and identity learning[J]. arXiv preprint arXiv:1703.07220, 2017.

[3] Liang Zheng, Yi Yang, Alexander G Hauptmann. Person re-identification: Past, present and future[J]. arXiv preprint arXiv:1610.02984, 2016.

[4] Tetsu Matsukawa, Einoshin Suzuki. Person re-identification using cnn features learned from combination of attributes[C]//Pattern Recognition (ICPR), 2016 23rd International Conference on. IEEE, 2016:2428–2433.

[5] Rahul Rama Varior, Mrinal Haloi, Gang Wang. Gated siamese convolutional neural network architecture for human re-identification[C]//European Conference on Computer Vision. Springer, 2016:791-808.

[6] Florian Schroff, Dmitry Kalenichenko, James Philbin. Facenet: A unified embedding for face recognition and clustering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2015:815-823.

[7] Hao Liu, Jiashi Feng, Meibin Qi, Jianguo Jiang, Shuicheng Yan. End-to-end comparative attention networks for person re-identification[J]. IEEE Transactions on Image Processing, 2017.

[8] De Cheng, Yihong Gong, Sanping Zhou, Jinjun Wang, Nanning Zheng. Person re-identification by multichannel parts-based cnn with improved triplet loss function[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016:1335-1344.

[9] Weihua Chen, Xiaotang Chen, Jianguo Zhang, Kaiqi Huang. Beyond triplet loss: a deep quadruplet network for person re-identification[J]. arXiv preprint arXiv:1704.01719, 2017.

[10] Alexander Hermans, Lucas Beyer, Bastian Leibe. In defense of the triplet loss for person reidentification[J]. arXiv preprint arXiv:1703.07737, 2017

[11] Xiao Q, Luo H, Zhang C. Margin Sample Mining Loss: A Deep Learning Based Method for Person Re-identification[J]. 2017.

[12] Rahul Rama Varior, Bing Shuai, Jiwen Lu, Dong Xu, Gang Wang. A siamese long short-term memory architecture for human re-identification[C]//European Conference on Computer Vision. Springer, 2016:135–153.

[13] Liang Zheng, Yujia Huang, Huchuan Lu, Yi Yang. Pose invariant embedding for deep person reidentification[J]. arXiv preprint arXiv:1701.07732, 2017.

[14] Haiyu Zhao, Maoqing Tian, Shuyang Sun, Jing Shao, Junjie Yan, Shuai Yi, Xiaogang Wang, Xiaoou Tang. Spindle net: Person re-identification with human body region guided feature decomposition and fusion[C]. CVPR, 2017.

[15] Longhui Wei, Shiliang Zhang, Hantao Yao, Wen Gao, Qi Tian. Glad: Global-local-alignment descriptor for pedestrian retrieval[J]. arXiv preprint arXiv:1709.04329, 2017.

[16] Zhang, X., Luo, H., Fan, X., Xiang, W., Sun, Y., Xiao, Q., ... & Sun, J. (2017). AlignedReID: Surpassing Human-Level Performance in Person Re-Identification. arXiv preprint arXiv:1711.08184.

[17] Taiqing Wang, Shaogang Gong, Xiatian Zhu, Shengjin Wang. Person re-identification by discriminative selection in video ranking[J]. IEEE transactions on pattern analysis and machine intelligence, 2016.38(12):2501–2514.

[18] Dongyu Zhang, Wenxi Wu, Hui Cheng, Ruimao Zhang, Zhenjiang Dong, Zhaoquan Cai. Image-to-video person re-identification with temporally memorized similarity learning[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017.

[19] Jinjie You, Ancong Wu, Xiang Li, Wei-Shi Zheng. Top-push video-based person reidentification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2016:1345–1353.

[20] Xiaolong Ma, Xiatian Zhu, Shaogang Gong, Xudong Xie, Jianming Hu, Kin-Man Lam, Yisheng Zhong. Person re-identification by unsupervised video matching[J]. Pattern Recognition, 2017. 65:197–210.

[21] Niall McLaughlin, Jesus Martinez del Rincon, Paul Miller. Recurrent convolutional network for videobased person re-identification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016:1325–1334.

[22] Rui Zhao, Wanli Oyang, Xiaogang Wang. Person re-identification by saliency learning[J]. IEEE transactions on pattern analysis and machine intelligence, 2017. 39(2):356–370.

[23] Hao Liu, Zequn Jie, Karlekar Jayashree, Meibin Qi, Jianguo Jiang, Shuicheng Yan, Jiashi Feng. Video based person re-identification with accumulative motion context[J]. arXiv preprint arXiv:1701.00193,2017.

[24] Song G, Leng B, Liu Y, et al. Region-based Quality Estimation Network for Large-scale Person Re-identification[J]. arXiv preprint arXiv:1711.08766, 2017.

[25] Zheng Z, Zheng L, Yang Y. Unlabeled samples generated by gan improve the person re-identification baseline in vitro[J]. arXiv preprint arXiv:1701.07717, 2017.

[26] Zhong Z, Zheng L, Zheng Z, et al. Camera Style Adaptation for Person Re-identification[J]. arXiv preprint arXiv:1711.10295, 2017.

[27] Wei L, Zhang S, Gao W, et al. Person Transfer GAN to Bridge Domain Gap for Person Re-Identification[J]. arXiv preprint arXiv:1711.08565, 2017.

[28] Qian X, Fu Y, Wang W, et al. Pose-Normalized Image Generation for Person Re-identification[J]. arXiv preprint arXiv:1712.02225, 2017.


想在手機閱讀更多周邊設備資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems