JHU上交等提出首個可渲染X光3DGS!推理速度73倍NeRF,性能提升6.5dB | ECCV 2024

新智元報道

編輯:LRST

【新智元導讀】X-Gaussian是一種新型的3D Gaussian Splatting框架,專爲X光新視角合成而設計,以減少醫療成像中的X光輻射劑量,通過高效的渲染技術,能夠在保持圖像質量的同時顯著減少訓練時間和提升推理速度。

X光由於其強大的穿透力而被廣泛地應用於醫療、安檢、考古、生物、工業檢測等場景的透射成像。

然而,X光的輻射作用對人體是有害的,受試者與測試者都會受到暴露於X光下的影響。

爲了減少X光對人體的傷害,約翰霍普金斯大學、香港科技大學(廣州)、上海交通大學的研究人員提出了稀疏視角下的X光三維重建任務——新視角生成,即只拍攝少數幾張X光片,剩下視角的X光片通過渲染得到,用以幫助醫生進行診斷分析。

論文鏈接:https://arxiv.org/abs/2403.04116

代碼鏈接:https://github.com/caiyuanhao1998/X-Gaussian

視頻鏈接:https://www.youtube.com/watch?v=v6FESb3SkJg&t=28s

文中提出了首個能夠渲染X光的3D Gaussian Splatting框架以用於X光的新視角合成(Novel View Synthesis, NVS)。

值得一提的是,該方法無需計算耗時的Structure-from-Motion(SfM)算法來進行初始化。

圖1 高斯點雲分佈在模型訓練中的變化過程

目前所有的代碼、數據、高斯點雲模型、訓練日誌均已開源,歡迎大家來使用或是提交issue。

研究背景

NeRF類重建方法由於需要密集地採集射線,並在射線上採樣多個3D點,計算後通過再通過volume rendering渲染得到2D projection。這一過程非常消耗時間。

當前正火的3D Gaussian Splatting (3DGS)因爲其高度平行化的渲染方法——Rasterization而有着比NeRF更快的渲染速度。然而3DGS是針對自然光成像設計的。

直接將3DGS用於X光成像會遇到兩個問題:

(1)首先,如圖2所示,自然光成像主要依靠於光線在物體表面的反射,這使得從不同角度看,物體表面的顏色會有差異。爲了擬合這一各向異性的特點,3DGS採用球諧函數(Spherical Harmonics,SH)來模擬自然光的分佈。然而在X光成像中,X光穿透物體並衰減,然後落在探測器上成像。X光無論從各個角度穿透同一物質點,其衰減都是一樣的。直接使用SH很難擬合X光成像的這一各向同性的特點。

(2)其次,3DGS的初始化需要通過計算Structure-from-Motion(SfM)算法來得到各個視角的相機內外參數以及一個稀疏點雲作爲起始。這個算法十分耗時,增加了患者和醫生的等待時間。

圖2 3DGS 自然光成像與 X-Gaussian 進行 X 光成像對比

本文針對上述這些問題展開研究,做出了以下四點貢獻:

針對X光新視角合成任務,本文提出首個基於3D Gaussian Splatting的技術框架——X-Gaussian;

設計了一個全新的輻射高斯點雲模型(Radiative Gaussian Point Cloud Model),基於該模型,又設計了一個可微的輻射光柵化渲染方法(Differentiable Radiative Rasterization);

針對高斯點雲模型,提出了一種初始化方法——Angle-pose Cuboid Uniform Initialization(ACUI),這種初始化方法能夠通過X光掃描儀的設備參數和旋轉角直接計算出相機內外參數和初始稀疏點雲,這使得新方法免於計算 SfM,從而大幅提升訓練速度。

X-Gaussian在性能上超過當前最好NeRF方法6.5dB的情況下,推理速度還達到了73倍。同時在傳統算法上也驗證了,通過新方法合成的新視角X光片能夠提升CT重建的圖像質量。

空間座標系的轉換

在圓形掃描軌跡錐形X光束掃描(circular cone-beam X-ray scanning)場景下研究三維重建問題。空間座標系的變換關係如圖3所示。被掃描物體的中心O爲世界座標系的原點。

掃描儀的中心S爲相機座標系的中心。探測器D的左上角爲圖像座標系的原點。整個空間座標系的變換遵循OpenCV三維視覺的標準。

圖3 空間座標系轉換關係示意圖

本文方法

圖4 X-Gaussian 算法框架流程圖

算法的流程圖如圖4所示,首先通過圖4(a)中的Angle-pose Cuboid Uniform Initialization(ACUI)來計算出X光源(Source)在對應旋轉角下的相機內外參矩陣並計算出初始稀疏點雲。然後,針對X光各向同性的成像特點設計了輻射高斯點雲模型(Radiative Gaussian Point Cloud Model),如圖4(b)所示。

針對這一點雲模型,團隊設計了一個可微的輻射光柵化(Differentiable Radiative Rasterization,DRR)渲染方法,用於三維高斯點雲的潑濺渲染,如圖4(c)所示。本節先介紹輻射高斯點雲模型,然後是可微的輻射光柵化,最後介紹ACUI初始化方法。

輻射高斯點雲模型

本小節首先回顧一下3DGS的基本知識。3DGS將一個物體或場景用個高斯點雲表示如下:

其中的表示第個高斯點雲,,Σ,分別表示高斯點雲的中心位置,協方差,和不透明度。

協方差控制高斯點雲橢球的三軸大小,即控制點雲的形狀。3DGS對每一個高斯點雲採用球諧函數來擬合其顏色如下:

其中,表示顏色,=(,)表示觀測視角,表示球諧函數係數,表示球諧函數,將球面上的點映射成一個實數值。然而,如前面的分析,球諧函數並不適合用來模擬各向同性的X光成像。

爲此,團隊設計了一個輻射強度響應函數(Radiation Intensity Response Function,RIRF)來替代球諧函數。

具體而言,讓每一個高斯點雲學一個特徵向量其固有的輻射屬性,如輻射密度等。然後該點雲的輻射強度便可以被表示爲:

其中表示一組常數。

因此,輻射高斯點雲模型可以被表示爲:

其中爲可學習參數,表示分配給第個高斯點雲的特徵向量。

可微的輻射光柵化方法

基於提出的這個高斯點雲模型,團隊還設計了一個可微的輻射光柵化方法(Differentiable Radiative Rasterization,DRR)。

整DRR的過程總結如下:

其中表示被渲染的圖像,和分別表示內外參矩陣。接着介紹的細節。

首先,計算第個高斯分佈上的3D點的概率如下:

接着,將3D高斯點雲從世界座標系中投影到相機座標系,進而再投影到圖像座標系上:

其中的=(,,)表示相機座標,表示圖像座標。三維的協方差矩陣也被對應地投影到相機座標系上:

其中是投影變換(projective transformation)的仿射近似的雅克比矩陣。

是viewing transformation。

其中的表示X光掃描儀中X光源(source)和探測器(detector)之間的距離,表示X光源的旋轉角。

然後在圖像座標系下的二維協方差矩陣是直接取′的前兩行前兩列。

將2D projection分割成互補重疊的titles。每一個三維高斯點雲都按照其對應投影所落在的位置分配到對應的tiles上。這些3D高斯點雲按照與二維探測器平面的距離進行排序。

那麼,在2D projection上像素點上的輻射強度便是混合個與重疊的排好序的3D點得到的,如下公式所示:

其中的表示落在像素上的X射線與高斯點雲之間的交點,表示的輻射強度。

模型訓練的監督函數是一範數損失與SSIM損失之間的加權和:

其中的是加權稀疏,可調的超參。

角度位姿立方體均勻初始化

常規的3DGS使用SfM算法來計算每一個視角的相機內外參數以及初始的稀疏點雲。

SfM算法的原理是檢測不同視角投影之間的特徵匹配點。對於X光片這種低對比度的圖像來說,SfM的檢測精度會降低。

同時運行SfM非常耗時,對幾十張圖像計算SfM可能需要耗費幾個小時。這大大延長了病人和醫生的等待時間。

爲此,團隊設計了角度位姿立方體均勻初始化(Angle-pose Cuboid Uniform Initialization,ACUI)算法。

ACUI首先直接使用X光掃描儀的參數來計算相機的內外參矩陣:

其中的表示外參矩陣,表示X光源與物體之間的距離。表示相機內參,,表示渲染圖像的寬度和高度。

然後設置一個尺寸爲1×2×3()的立方塊使其能夠完全包裹被掃描的物體,並將其分割成一個1×2×3(voxel)的網格。

最後,按照間隔來採樣得到初始的稀疏點雲:

實驗結果

新視角生成

表1 新視角生成任務對比

圖5 新視角生成視覺對比圖

在新視角生成任務上,新方法與之前方法的定量與定性對比分別如表1和圖5所示。

新方法在比當前最好的NeRF類算法要高出6.5dB的情況下,還達到了73倍的渲染速度,並且可以渲染更多的結構細節。

圖6 3DGS與X-Gaussian訓練過程的視覺分析

團隊做了視覺分析,將3DGS與X-Gaussian訓練的各個iteration的高斯點雲進行可視化。

如圖6所示,X-Gaussian收斂得更快,噪聲更少,更加貼合被掃描物體(腳趾)的形狀。

稀疏視角CT重建

採用X-Gaussian爲傳統方法在稀疏視角下渲染更多X光片視圖以進行CT重建,定量對比如表2所示

表2 稀疏視角下CT重建的數值對比

圖7 使用不同NVS算法爲傳統方法SART合成新視角以進行CT重建視覺對比

新的方法能夠更好地輔助不同傳統方法進行稀疏視角的CT重建,PSNR性能上的漲幅都超過了10dB。

總結

本文提出了首個能渲染X光的3DGS方法——X-Gaussian。

具體而言,團隊重新設計了一個輻射高斯點雲模型,並基於該模型設計了一個可微的輻射光柵化渲染方法,能夠在GPU上高效地並行計算。同時爲求出不同視角下的相機內外參矩陣和初始稀疏點雲,還設計了ACUI初始化方法。

最終,X-Gaussian在比當前最好NeRF方法要高出6.5dB的情況下速度還達到了73倍速。同時還在稀疏視角CT重建任務上驗證了新方法的實用價值。

本文使用的數據來自團隊CVPR 2024的工作SAX-NeRF,能夠同時做X光新視角合成和CT重建的Instant-NGP。

參考資料:

https://zhuanlan.zhihu.com/p/717744222