OpenCity大模型預測交通路況,零樣本下表現出色,來自港大百度
長時間交通狀況預測,可以用大模型實現了。
香港大學聯合華南理工大學和百度,推出了長時間城市交通預測模型——OpenCity。
而且泛化能力極強,可有效應用於廣泛的交通預測場景。
爲了解決傳統交通預測模型泛化性及長期預測能力不足的問題,研究團隊新的基礎模型OpenCity。
OpenCity結合了Transformer架構和圖神經網絡,用以模擬交通數據中複雜的時空依賴關係。
通過在大規模、異質性交通數據集上進行預訓練,OpenCity能夠學習豐富、具有泛化性的表徵,這些表徵可有效應用於廣泛的交通預測場景。
相比於傳統方法,OpenCity具有以下特點:
長時間交通預測面臨挑戰
當前的交通預測模型,主要面臨着三大挑戰。
一是跨區域空間泛化能力。
當前交通預測模型的一個關鍵侷限是它們在空間泛化能力欠佳。
不同地理位置的交通模式可能因基礎設施、人口統計等因素而有很大差異,現有模型通常僅從特定區域的數據中學習,無法有效地泛化到其他區域。
然而,在整個城市區域部署全面的傳感器網絡來收集交通數據是不切實際的。
一種更可行的方法是構建能夠僅使用部分數據就能很好泛化到未見區域的模型。
此外,開發適用於不同城市的時空模型將顯著降低部署和維護成本。
解決空間泛化挑戰對於創建可以在不同城市環境中無縫部署,無需大量重新訓練或微調的交通模型至關重要。
第二個挑戰是時間泛化與長期預測。
當前的交通預測模型擅長於短期預測,例如預測未來一小時內的交通狀況。
然而,它們在泛化到更長時間框架,如未來幾小時或幾天的能力明顯有限。
這種限制主要是由於模型在有效處理實際城市場景中較長時間範圍內發生的時間分佈變化方面的泛化能力較差。
隨着預測時間範圍的增加,這些模型難以捕捉和考慮影響長期交通狀況的交通模式的動態變化。
這一限制爲城市規劃者和交通機構制定有效的長期戰略帶來了較大障礙。
第三是學習有效的通用表徵並應對時空異質性。
學習強大、具有泛化能力的交通動態表徵對於開發多功能交通模型至關重要。
通過學習通用表徵,模型可以獲得對交通模式的堅固且可轉移的理解,使其能夠有效地應用於多種場景,即使沒有特定領域的訓練數據。
此外,城市交通模式的特點是其固有的多樣性,在不同的空間區域和時間顯示出顯著的分佈變化。
解決這種異質性對於確保統一的時空交通模型保持多功能性和適應性至關重要。
下方左圖展示了不同交通數據集中數據分佈的變化,突出了需要能夠處理這種差異的模型的必要性;
右圖比較了OpenCity在零樣本下的性能與基線在全樣本下的性能,儘管存在時空異質性分佈偏移挑戰,OpenCity的表現仍與全樣本基線相當。
爲了解決這些挑戰,研究團隊採取了一系列新策略。
用於分佈偏移泛化的時空嵌入
上下文歸一化
現有方法通常利用訓練數據的統計特性如均值和標準差等,進行數據歸一化。
然而,當測試數據顯示出顯著的數據異質性且與訓練數據分佈沒有地理空間重疊時,這些彙總統計可能是不充分的或不可轉移的。
爲了應對這一挑戰並適應零樣本交通預測任務,作者採用實例歸一化IN(·)來處理數據。
這種方法利用每個區域的單個輸入實例Xr ∈ ℝ^T的均值μ(Xr)和標準σ(Xr),而不依賴於全局訓練集的統計數據,它能夠有效緩解訓練數據和測試數據分佈偏移的問題,形式化如下:
用於高效長期預測的Patch嵌入
OpenCity旨在解決長期交通預測問題,這涉及處理增加的輸入時間步數,導致顯著的計算和內存開銷。
爲了緩解這些問題,作者採用基於Patch的方法按時間維度劃分數據。
定義P爲Patch長度,指定分組到單個Patch中的時間步數,以及S爲步長大小,決定連續Patch之間的重疊。
Patch操作後,輸入數據被重塑爲Xr^P ∈ ℝ^(P×N),其中N是塊的數量,N = (T-P) / S +1。
通過將一小時的交通數據視爲單個補丁的長度,並相應地調整步長(S=P),使得模型能夠捕捉並適應交通數據在延長時間範圍內的演變模式。
此外,基於補丁的處理顯著降低了計算和內存需求,使得更高效和可擴展的長期交通預測成爲可能。
在patch操作後,作者使用線性轉換和正餘弦位置編碼PE以得到最終時空嵌入表徵Er ∈ ℝ^(P×d),它被用於後續組件的輸入,如下:
時空上下文編碼
爲了捕捉交通數據中固有的複雜時空模式,模型整合了時間和空間上下文線索。
通過顯式地模擬這兩個關鍵維度之間的相互作用,OpenCity能夠更好地理解影響交通模式的多方面因素。
這種集成方法使所提出的框架能夠在不同的時間範圍和地理區域中生成更準確的預測。
時間上下文編碼
OpenCity模型有效地捕捉了交通數據中的獨特時間模式,例如由日常或周常規引起的週期性變化,以及在更長的時間尺度上的複雜非線性依賴。
具體來說,作者利用一天中的時間z^(d) ∈ ℝ^T和一週中的某天z^(w) ∈ ℝ^T等時間特徵來提取週期關聯,然後採用線性層來生成編碼這些時間上下文線索的時間特定嵌入。
通過顯式地模擬交通流的週期性特徵,該方法即使在長期預測範圍下也能實行精確預測。
時間上下文編碼過程結合了patch操作與時空嵌入表徵對齊,形式化如下:
空間上下文編碼
由於地理特性的獨特性,不同區域的交通模式各不相同(如交通樞紐有着的較高流量)。
爲了捕捉這些區域屬性,作者在交通網絡中整合了空間上下文。
首先,作者計算了標準化的拉普拉斯矩陣,其中I和D分別是單位矩陣和度數矩陣:
然後作者執行看特徵值分解,得到△=UΛU^T,其中U和Λ分別是特徵值矩陣和特徵向量矩陣。
使用k個最小的非平凡特徵向量作爲區域嵌入Φ ∈ ℝ^(R×k),編碼交通網絡的結構信息。
然後通過線性層處理這些嵌入,以獲得最終的空間編碼C ∈ ℝ^(R×d)。
時空依賴建模
時間依賴建模
OpenCity在所提出的TimeShift Transformer架構上構建,以編碼時間依賴關係。作者主要從兩個互補的視角捕捉交通模式:
週期性交通轉換建模
作者利用時間嵌入D和空間嵌入C捕獲交通中的週期性模式,目標是揭示歷史交通模式與未來實例之間的相關性。
其中,時間嵌入被更新爲兩個組成部分:
作者的模型明確地模擬了歷史和未來導向的時間模式,使其能夠更好地學習和利用交通時間序列的週期性特徵。
這個過程通過構建時間轉移多頭注意力機制實現——
將未來的時空嵌入作爲查詢(Query),歷史的時空嵌入作爲鍵(Key),以及歷史的時空數據表示作爲值(Value)。
作者引入了RMSNorm來提高訓練穩定性。
通過明確建模歷史與未來時間信息之間的關係,OpenCity具備了發現週期性時空交通模式的能力。
動態交通模式學習
該模塊旨在捕捉不同時間段之間的動態依賴關係,例如,突發的交通事故可能導致交通速度和交通量急劇下降。
爲了實現這一點,我們採用類似於週期交通轉換編碼的注意力機制。
不同之處在於,查詢(Q)、鍵(K)和值(V)的輸入被替換爲上一步的歸一化輸出(M)。
這一修改使得模型能夠專注於學習不同時間段之間的動態依賴關係,而不僅僅是週期模式。
得到的時間表示H ∈ ℝ^(R×p×d)捕捉了這些動態時空關係。
空間依賴建模
捕捉空間依賴性是模型設計的一個關鍵方面,因爲交通網絡表現出強空間相關性,一個區域的交通狀況往往受到鄰近區域狀態的影響。
爲了建模這些空間關聯,作者採用了圖卷積網絡(GCNs):
殘差連接、RMSNorm和SwiGLU激活函數被用於後續運算。
所提出的模型通過堆疊多層此類時空編碼網絡,捕捉複雜的時空依賴關係,使其能夠學習交通網絡內複雜的關係。
測試結果
零樣本 vs. 全樣本
作者全面測試了OpenCity的零樣本性能,包括跨區域,跨城市和跨類型三種情形,並於基線全樣本性能進行對比。
首先,OpenCity顯現出了卓越的零樣本預測性能。
OpenCity在零樣本學習方面取得了重大突破,即使不進行微調,也超越了大多數基線。
這突出了該方法在學習大規模交通數據中複雜的時空模式、提取適用於下游任務的通用見解方面的穩健性和有效性。
OpenCity在多個數據集上能夠保持前兩名的位置,即使在不領先的情況下差距也保持在8%(MAE)以內。
卓越的零樣本預測性能凸顯了OpenCity在處理多樣化交通數據集上的通用性和適應性,無需廣泛重新訓練。
其關鍵優勢在於可以立即部署到新場景中,顯著減少傳統監督方法通常所需的時間和資源,爲實際應用帶來了巨大的好處。
OpenCity還表現出了卓越的跨任務泛化能力。
作者在交通流量(CAD3、CAD5)、交通速度(PEMS07M、TrafficSH)、出租車需求(CHI-TAXI)和自行車軌跡(NYC-BIKE)這四個不同的交通數據類別中評估了OpenCity。
基線分析顯示,雖然各種模型在特定數據類型上表現出色,但沒有一個能夠在所有類別中始終提供最佳結果。
然而,它們在其他領域保持該水平的表現卻存在困難。
相比之下,OpenCity在所有測試類別中始終提供高質量的結果,突顯其卓越的穩健性和多功能性。
此外,爲了評估OpenCity框架的通用性,作者在測試期間評估了其跨類別的零樣本泛化能力(NYC-BIKE)。
結果顯示OpenCity在多個指標保持了優異的表現,進一步驗證了其普適性和適應多樣數據類型的能力。
此外,OpenCity還擁有強大的長期預測能力。
OpenCity架構的一個關鍵優勢是其卓越的時間泛化能力,其能夠在長期交通預測任務中優於基線方法。
許多現有模型常常難以在延長的時間範圍內維持準確的預測,因爲它們傾向於過度擬合曆史模式,未能充分捕捉交通條件的動態和演變特性。
OpenCity能夠從多樣化交通數據源學習通用時空表徵,這使其能夠生成穩健的預測,即使交通模式隨時間變化和演進,預測仍然可靠。
有監督預測性能
爲了進一步驗證OpenCity的性能,作者進行了監督學習評估。
其中,OpenCity在one-for-all設置下與基線在單個數據集端到端訓練測試進行對比。
OpenCity在監督設置中保持出色的表現,並在大多數評估指標中佔據領先優勢。
此外,作者觀察到大多數基線模型在 CAD-X 數據集上表現不佳,可能是因爲它們傾向於過度擬合曆史時空模式,使得它們難以泛化到長期交通依賴建模。
相比之下,OpenCity架構有效地從我們的預訓練階段提取了通用的週期性和動態時空表徵,解決了由於跨時間和跨位置分佈偏移引起的預測性能不佳的問題。
△有監督性能評估 △有監督性能評估
模型快速適應能力探索
本節評估了OpenCity在下游任務中的快速適應能力。
作者關注了一個之前未見過的交通數據集,並採用了“高效微調”方法,設置如下:
只更新模型的預測頭(最後一個線性層),最多進行三個訓練週期。
結果,OpenCity在某些指標上的零樣本表現不如基線模型的全樣本表現,這可能是由於交通模式和數據採樣的變化。
然而,經過高效微調後,OpenCity的表現顯著提升,超過了所有比較的模型。
值得注意的是,OpenCity的訓練時間只佔基線所需時間的2%至32%。
這種快速的適應能力突顯了OpenCity作爲基礎交通預測模型的潛力,能夠迅速適應新的時空數據類別。
消融實驗
模型可擴展性研究
作者還探索了OpenCity在數據和參數兩個維度上的可擴展性。
其中,參數可擴展性包括三個版本:OpenCitymini(2M參數)、OpenCitybase(5M參數)和OpenCityplus(26M參數)。
在模型plus下,作者使用了10%、50%和100%的預訓練數據來探索納入更多數據的好處。
爲了標準化比較,縱軸代表相對預測誤差值。結果顯示,隨着參數和數據規模的增加,OpenCity的零樣本泛化性能逐漸提升。
這表明OpenCity能夠從大規模數據集中提取有價值的知識,並且通過參數擴展增強了其學習能力。
所展示的可擴展性潛力支持OpenCity成爲通用交通應用的基礎模型的前景。
與大規模時空預測模型的比較
作者還將OpenCity與其他先進的大型時空預訓練模型進行比較,包括以強大的零樣本泛化能力著稱的UniST和UrbanGPT。
作者使用了三個模型的預訓練階段均未包含的CHI-TAXI數據集進行評估。
結果顯示,OpenCity在其他先進的大規模時空模型中保持了顯著的性能優勢。
此外,OpenCity和UniST相比於UrbanGPT顯示出顯著的效率改進。這可能是因爲UrbanGPT依賴於通過問答格式進行預測的大型語言模型 (LLM),這限制了其高效處理批量數據的能力。
所提出的OpenCity模型在性能和效率上實現了雙贏,突顯了其作爲交通基準測試的強大大規模模型的潛力。
總之,OpenCity這個用於交通預測的可擴展時空基礎模型,在多個交通預測場景中實現了精確的零樣本預測性能。
通過採用Transformer編碼器架構作爲建模動態時空依賴關係的主幹,並在大規模交通數據集上進行預訓練,OpenCity在各種下游任務上展示了卓越的零樣本預測性能,與全樣本設置下的最先進基線模型的結果相匹配。
論文地址:http://arxiv.org/abs/2408.10269GitHub:https://github.com/HKUDS/OpenCity項目組主頁:https://sites.google.com/view/chaoh/home