京東AI研究成果再向前一步 方法領先Waymo、Facebook

(原標題京東AI研究成果再向前一步 方法領先Waymo、Facebook)

近日,第34屆神經信息處理系統大會(Conference on Neural Information Processing Systems,簡稱NeurIPS,NIPS)在線上召開。作爲全球頂級機器學習和計算神經科學會議,今年的NIPS依然受到了學者們的高度關注,甚至由於其線上開放的特性緩解了往年搶票難的問題,而將獲得更多的“聽衆”。

據悉,今年NeurIPS稿件錄取率爲20.09%,創下歷史新低。在如此嚴苛的錄取標準之下,京東AI深度學習與語音語義實驗室提交的探索稀疏3D點雲Global Context的論文《Group Contextual Encoding for 3D Point Clouds》成功入選。今年以來,京東AI深度學習與語音語義實驗室的研究成果頻獲國際認可,此前還有多篇論文入選國際語音和語言處理頂會比如ACL 2020、AAAI 2020、INTERSPEECH 2020等。

Global Context對視覺感知至關重要,可以根據語義信息提高物體識別的準確率,但目前針對3D點雲的Global Context的研究還不夠充分,特別是在三維空間的情況下,數據呈現高維、稀疏的特點,對傳統深度學習算法提出了挑戰。因此,京東AI研究院基於其研究實習生計劃與東京大學合作了《Group Contextual Encoding for 3D Point Clouds》,針對這一研究領域提出了Group Contextual Encoding的Global Context學習方法。

從目前已有3D點雲Global Context的研究成果來看,比如LG-PointNet++ 【1】,其複雜度爲,N是輸入點的個數。當場景複雜時,輸入點數較多會導致耗費相當大的算力。Contextual Encoding Layer【2】的複雜度是,是一種有效率的方法,K是該方法裡code word數目。但是點雲數據稀疏導致的過擬合現象(overfitting),會影響性能的提升,導致在ScanNet,SUN-RGBD數據集上3D檢測性能隨着Code word數目K的增長,性能卻很快就飽和不再增長。雖然目前有一些深度補全的算法可以解決數據稀疏這個問題,但是這些算法都存在結構複雜、耗費計算資源的問題,因此,京東AI研究院決定探索簡單有效的方法。

首先要解決數據的稀疏問題。通過把特徵通道分組,從而獲得更多的等效數據,如圖1所示,如果把通道分成G組特徵子向量,數據就相對應增廣了G倍。再將分組後的特徵子向量通過Encoding layer得到Global context,從而有利於在分組後的特徵子空間學習全局上下文, 然後通過channel attention的形式作用於分組後的特徵。最後通過Concat操作恢復爲原特徵的尺寸。如此操作既解決了數據的稀疏問題,又解決算法結構複雜、算力耗費巨大的問題。

圖1:Group Contextual Encoding方法圖。

隨後,京東AI研究院又將這種方法在多個3D數集上進行驗證,不僅證實這種方法簡單有效,還刷新了SOTA方法的性能。將這種方法應用在PointNet++ Backbone上,並部署到VoteNet模型。如表1所示,在ScanNet數據集以mAP@0.25指標測評時,該方法領先VoteNet 【3】 2.2mAP,增幅已然明顯,但更令人驚喜的是,在更加嚴格的mAP@0.5的指標下,如表2所示,該方法領先Waymo、Facebook AI Research以及Stanford大學提出的VoteNet高達6.57 mAP,可視化結果如圖2所示。

表1:ScanNet數據集mAP@0.25評測指標的結果。

表2:ScanNet數據集mAP@0.5評測指標的結果。

圖2:ScanNet數據集的結果可視圖。在SUN-RGBD數據集,我們的方法也領先VoteNet 3mAP,具體定量以及定性結果如表3和圖3所示。

表3:SUN-RGBD數據集mAP@0.25評測指標的結果.

圖3:SUN-RGBD數據集的結果可視圖。

京東自2017年開始全面技術轉型,用技術重塑了京東的生態系統,逐漸突破零售邊界,拓展至數字科技物流、健康等衆多領域。一直以來,消費者們更多的在購物、物流等環節體驗到京東技術的進步,如今,京東在人工智能領域的長足進展不僅獲得學術界的認可,也逐漸被更多的用戶所知悉,京東的智能語音技術也已經在智能外呼機器人客服語音機器人等電話交互場景中實現成熟應用,此次提出的Group Contextual Encoding方法也可以應用在下游的AR(增強現實)、MR(混合現實)以及機器人,自動駕駛等領域,推動這些領域的發展。京東技術將不僅賦能金融、醫療教育、健康等行業,還將在更多領域爲用戶提供便利。

參考文獻

【1】Wang, Xu, Jingming He, and Lin Ma. "Exploiting Local and Global Structure for Point Cloud Semantic Segmentation with Contextual Point Representations." Advances in Neural Information Processing Systems. 2019.

【2】Zhang, Hang, et al. "Context encoding for semantic segmentation." Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2018.

【3】Qi, Charles R., et al. "Deep hough voting for 3d object detection in point clouds." Proceedings of the IEEE International Conference on Computer Vision. 2019.