面向智算時代的光通信技術發展探討
通信世界網消息(CWW)大模型對算力的需求呈指數級增長,促使智算業務飛速發展。以生成式預訓練(GPT)大模型ChatGPT爲例,ChatGPT-6的計算量(Flops)相較於GPT-4提升了1444至1936倍,所使用的圖形處理單元(GPU)數量,也從數萬個GPU,提高至百萬個GPU。
因此,人工智能(AI)下的各類智算應用與業務,要求高速光通信網絡具備大帶寬、低時延與高可靠等特性以支持算力的發展。同時,也需要高速光通信在組網能力、高速互聯、傳輸時延、可靠傳輸等方面持續革新。
智算時代的兩種集羣組網方式
當前,AI智算中心以單點大集羣爲主,即在同一個物理機房實現模型的訓練。而模型規模的擴展、算卡數量提升帶來的巨大電力消耗,以及算力碎片化,使得分佈式集羣成爲另一個重要的選擇,即利用多個物理機房進行模型訓練。此外,目前國產GPU的性能尚與國際先進水平存在一定的差距,因而未來分佈式集羣更爲重要。上述兩種不同的集羣組網方式,對高速光通信技術提出了差異化的承載需求。
對於單點集羣,當前數據中心以Spine-leaf(葉脊)網絡架構爲主,形成Full-mesh(全互聯)拓撲。相較於傳統三層網絡架構,葉脊網絡對光模塊的數量需求顯著增加,尤其是400G、800G,乃至1.6T這類高速光模塊。同時,隨着速率的提升,其對光模塊封裝工藝的要求也不斷提高,以降低單比特成本與功耗。此外,全光交換技術在單點集羣中可突破電交換在功耗和時延方面的瓶頸,在國外已經開展了商用實踐。谷歌公司基於光路交換(OCS)技術構建了Jupiter數據中心網絡,英偉達將OCS引入到Spine、Leaf與AI服務器之間,爲硬件與軟件提供彈性保護。
然而,隨着算力需求的高速增長,未來單點集羣將面臨算力不足的問題,且電力供應也將成爲大規模智算建設的瓶頸。例如,OpenAI爲訓練ChatGPT-6,需要在美國同一個州部署約10萬張H100 GPU,每張H100 GPU一年的耗電量約爲3.74MW h,而10萬張H100 GPU一年的耗電量就達到了驚人37.4萬MW h。同時,如何將各類數據中心建設導致的碎片化算力充分利用,也成爲一大挑戰。此外,受限於當前國產GPU的能力以及GPU生態割裂等問題,國內對多個智算中心間協同計算更加關注,需求也更加迫切。目前業界正在積極探索分佈式智算集羣應用,並聚焦更長距離、更大帶寬與更低時延需求。
對於分佈式集羣,萬卡、十萬卡,乃至百萬卡級的互聯帶寬往往達到數十P比特級,甚至超百P比特級。因此,分佈式集羣間互聯帶寬需要足夠大,以保證算效,並配合帶寬收斂技術減少光層的數量來降低成本。當前,業界通過引入波分複用(WDM)技術、提高單波長速率與擴展傳輸波段,實現帶寬增大的目標。例如,谷歌公司目前已完成跨多個數據中心的Gemini Ultra大模型訓練,中國電信在其現網中基於波分複用技術完成了業內首例超百千米分佈式無損智算網現網驗證。同時,也可引入空分複用(SDM)技術,以在物理層面增加傳輸通道,提高傳輸帶寬。
基於此,本文從單點集羣與分佈式集羣出發,介紹了兩種集羣方式的關鍵技術、發展現狀與應用實例,並結合中國電信自身的需求,對智算時代的高速光通信技術進行展望。
面向單點集羣的數據中心內部(DCN)光通信技術
高速短距光模塊
當前,高速光模塊電接口單通道100G SerDes(串行器/解串器)速率技術已成熟,配合100G與200G的光口速率,可分別應用於400G與800G短距光模塊。對於1.6T的短距光模塊,可採用200G SerDes技術,配合200G光口速率實現。目前來看,電接口單通道200G SerDes技術預計於2025年啓動研究。高速光模塊標準進展情況如表1所示,從標準化角度來看,目前部分標準組織的800G光模塊相關標準已基本完成,如IPEC(國際光電委員會)與IEEE(電氣電子工程師學會)標準協會等,而1.6T的光模塊相關標準正處於研究階段。
表1高速光模塊標準進展情況
高速封裝工藝
對於單點集羣,能耗與成本一直是關注的焦點。其中,高速光模塊的封裝技術在近期也呈現多元化演進趨勢,尤其是光模塊速率的持續提升,對功耗控制、單比特傳輸成本優化、傳輸時延降低等方面提出了更高的要求。
對於400G、800G乃至1.6T光模塊而言,線性驅動可插拔光模塊(LPO)和線性接收光模塊(LRO)成爲低功耗與低時延的方案。標準光模塊、LPO封裝、LRO封裝對比如圖1所示,標準封裝的光模塊通常集成了數字信號處理(DSP)芯片,而LPO與LRO光模塊則將DSP芯片移至設備側。其中,LRO光模塊僅在發端部署DSP芯片,接收端採用線性接收的方式,雖然這種光模塊的封裝形態不如LPO降低的功耗與成本多,但與傳統包含完全重定時的模塊相比有在一定程度的降低。需要指出的是,LPO光模塊由於無DSP芯片,在互操作方面仍然存在挑戰。目前,業界有11家企業聯合成立了LPO-MSA,於2024年第三季度完成LPO系列標準。對於3.2T甚至更高速率的光模塊而言,共封裝光學(CPO)或爲主流封裝形態。相較於傳統可插拔模塊,CPO模塊的功耗更低、每路的速率更高、電路衰耗更低,有利於進一步提升帶寬,且集成度高,降成本的潛力較大。
圖1標準光模塊、LPO封裝、LRO封裝對比
注:中英文對照如下,FEC(前向糾錯)、DSP(數字信號處理)、CDR(時鐘數據恢復)、
DRV(驅動器)、TIA(跨阻放大器)、TOSA(光發射組件)、ROSA(光接收組件)。
在100G SerDes速率下,LPO與LRO技術可以有效降低成本與功耗,但面向200G SerDes速率下的LPO技術,業界觀點仍有一定的分歧。在今年OFC(光纖通信大會)上,業界專家學者展開了激烈的討論:Macom與Arista對LPO在200G SerDes下的應用持積極態度,而華爲、Meta與谷歌等公司考慮到高速SerDes的鏈路噪聲與劣化等,認爲LPO在200G SerDes時代應該引入CDR,並採用傳統的DSP方案以提高性能。總體來看,LPO與LRO在100G SerDes時代的優勢已得到業界的認可,而面向更高速率的DCN互聯,還有待進一步探究;而CPO技術因其光電共封裝的特性,更加適用於高速互聯場景。因此,面向下一代更高速的DCN場景,CPO或將成爲一個具備優勢的技術方案;而對於可插拔性與模塊成本敏感的短距離場景而言,LPO或將成爲未來演進趨勢。
光路交換(OCS)技術
單點集羣的另一個關鍵技術是OCS,近些年因被谷歌大力推動在數據中心內應用而受到廣泛關注。相較於傳統的電交換,OCS技術省去了“光-電-光”這一過程,降低了傳輸的時延與功耗,並具備全光透明的特性。
目前,OCS產品有多種實現方式,主流的如壓電陶瓷方案、微電機系統(MEMS)方案以及硅基液晶(LCoS)方案等。壓電陶瓷方案採用壓電陶瓷材料帶動準直器旋轉,在空間直接耦合對準(“針尖對麥芒”),實現任意端口光路切換,目前矩陣規模最大可實現576×576,基於壓電陶瓷方案的OCS產品具有光開關矩陣規模特別大、插回損超低、切換時間短等特點;MEMS方案採用微型鏡片在二維/三維方向轉動,對輸入信號進行反射,從而實現任意端口光路切換,目前矩陣規模最大可實現320×320,基於MEMS方案的OCS產品具有功耗低、時延低的特點,但切換時間長、校準時間長且成本和插損較高;其他光開關方案諸如硅基液晶方案、液晶光開關、二氧化硅平面光波導(Silica PLC)、熱光開關、電光開關等也可實現OCS產品,基於硅基液晶技術的OCS產品可靠性高,切換時間短(200ms以內),但成本較高,而基於其他光開關方案的OCS產品性能仍需進一步驗證。
OCS技術在數據中心的典型應用有兩種:一種是谷歌將Spine層傳統電交換機用OCS代替,另一種是英偉達在Spine、Leaf與AI服務器之間加入OCS。對於前者,谷歌進一步引入了波分複用技術,並在鏈路中加入了環形器,實現在單根光纖上的速率翻倍;對於後者,OCS技術的引入主要通過控制器構建全新物理拓撲,對硬件故障和軟件故障提供彈性修復,並實現物理層設備之間的應用隔離。
總體來說,OCS技術未來將向兩個方向發展。一是隨着數據中心內部規模的不斷增長,時延、功耗等要求會不斷提升。OCS因其具有全光交換、光層透明等特徵,將向着大端口、低切換時間與低功耗演進,以配合代替Spine層,形成無需“光-電-光”全過程、任意速率/格式/波長的全光交換。同時,繼續下沉至Leaf層,需要更低的切換時間、更低的成本與更少的端口數,以提升系統的性能與效果。二是隨着數據中心規模的增大,線路的故障率也會有一定的提升,OCS可部署在數據中心多層之間,並通過控制器構建全新的拓撲,以實現物理層設備的應用隔離,提高大規模數據中心的可靠性。
面向分佈式集羣的數據中心之間光通信技術
大容量波分(WDM)傳輸技術
分佈式集羣對帶寬(容量)的需求日益增加,尤其是未來萬卡,甚至十萬卡級別的智算中心間互聯。目前通常採用波分複用技術實現傳輸容量的提升,包括提高單波長速率與擴展傳輸波段。
對於單波長速率的提升,當前單波長400Gbit/s已開始商用部署,單波長800Gbit/s還處於發展階段。按照單波長800Gbit/s相干光模塊的規格來劃分,可分爲兩種:一種是基於90GBaud左右的短距離800G模塊,採用概率成型的雙偏振64維正交幅度調製(PS-PM-64QAM),現網一般覆蓋數據中心光互聯;另一種是基於130GBaud左右的城域800G模塊,採用概率成型的雙偏振16維正交幅度調製(PS-PM-16QAM)。其中,第二種800G模塊可通過配置軟件參數,實現覆蓋數據中心應用的單波長1.2Tbit/s。
對於傳輸波段的擴展,當前擴展C波段與擴展L波段技術已經開始商用部署,且傳輸的波段範圍可高達12THz,結合單波長400Gbit/s技術,可實現單根光纖32Tbit/s的容量。面向未來,隨着帶寬需求的持續提升,S波段將是下一代波段擴展的熱點方向。然而,S波段的光纖放大器(如摻銩光纖放大器、TDFA)、收發光器件還處於準備階段。同時,“C+L+S”波段面臨更加嚴重的受激拉曼散射效應,因此需要進行深度的功率優化,提高多波段的傳輸性能。此外,系統級的聯合優化也是下一代多波段傳輸的核心難點,包括入纖功率優化與預加載技術的引入,以實現最大的鏈路吞吐量。
對於未來的分佈式集羣,考慮智算中心內單算卡的帶寬爲200Gbit/s,那麼一千卡、一萬卡與兩萬卡的互聯帶寬分別爲100Tbit/s、1Pbit/s與2Pbit/s,不同配置下所需的光層數量如表2所示。需要說明的是,這裡的千卡互聯是指收發兩端各500卡,萬卡與兩萬卡同理;分析僅爲體現光層配置對光層數量與成本的影響,並未考慮帶寬收斂技術,實際上數據中心會採用帶寬收斂技術降低成本。在系統配置上,考慮400G採用PM-QPSK調製、800G採用PS-PM-64QAM與PS-PM-16QAM兩種調製、1.2T採用PS-PM-64QAM調製,C波段、L波段、S波段與U波段譜寬均爲6THz。不難發現,最大帶寬越大,所需的光層數量越少。
表2 不同配置下數據中心集羣所需的光層數量
現以400G“C+L”與800G“C+L”(16-QAM)方案爲例,詳細計算兩種方案的成本。假設一塊400G OTU(光轉換單元)的成本爲1,一塊800G OTU的成本約爲1.2,“C+L”的ROADM(可重構光分插複用)、OTM(光終端複用)電子架與光放等其他光層與電層設備成本一致。考慮系統配置爲4個跨段、兩套OTM與ROADM、三套光放,則一套400G“C+L”與一套800G“C+L”的成本比值約爲1﹕1.16。因此,在傳輸帶寬相同的情況下,對於一萬卡與兩萬卡互聯,800G“C+L”的成本僅爲400G“C+L”的58%與58.9%。由此可見,提高系統最大帶寬不僅能有效降低光層數量,還可以進一步降低整個系統的成本。
高速相干光模塊技術
高速光通信系統需要高性能光模塊的支持,相干光模塊的發展情況如圖2所示。當前,相干光模塊的波特率已實現130GBaud,正在加速向20 0GBaud演進。對於130GBaud,目前大多數主流廠商均可實現。對於200GBaud,預計基於3nm工藝採用約190GBaud PM-PS-16QAM實現單波長800Gbit/s DSP芯片,有望覆蓋城域或長距離應用場景;或者基於2nm工藝採用約240GBaud~270GBaud PM-QPSK實現單波長800Gbit/s DSP芯片,有望覆蓋長距離應用場景。
圖2 相干光模塊的發展情況
目前,800G相干光模塊存在可插拔與固定兩種形態;1.2T相干光模塊僅有固定形態,可插拔產品目前業界沒有明確的方向;對於1.6T相干光模塊,預計2024年底固定形態產品將發佈,可插拔形態產品在2025年或之後發佈。
在相干光模塊的光芯片材料方面,目前主流的材料有薄膜鈮酸鋰、銦磷與硅光三種。三種材料因特性的不同,在選擇上也有區別,光芯片材料特性對比如表3所示。硅光材料可支持“C+L”波段工作,成本低且集成度高,因而成爲目前可插拔模塊的主流選擇,但面向下一代超200GBaud仍存在技術挑戰。因此,應考慮採用具有大帶寬優勢的薄膜鈮酸鋰材料,推動長距離骨幹網以及超高速傳輸應用。然而,受限於材料的特性,薄膜鈮酸鋰僅可用於調製。而銦磷材料的理論調製帶寬比硅光更大,模塊出光功率也更高,具備更好的傳輸性能;但其封裝較爲複雜,且單芯片僅支持單波段工作。總體來說,需綜合考慮應用場景、材料特性、成本與集成度等因素,選擇合適的技術方案。
表3 相干光模塊的光芯片材料特性對比
未來,相干光模塊將向着高集成度、小型化、低功耗的方向發展,產業各方需進一步優化材料的性能、模塊的設計以及與DSP芯片的適配等。
新型光纖技術
除了通過波分複用技術提高傳輸帶寬外,也可以採用新型光纖技術在物理上提高傳輸帶寬或降低傳輸時延。其中,以多芯光纖與少模光纖爲基礎的空分複用技術可以通過增加傳輸通道的密度,實現傳輸帶寬的翻倍。此外,以空氣爲介質的空芯光纖具有超低傳輸時延、超低非線性效應和超低損耗等特性,延遲相對於普通單模光纖可降低約30%;在相同時延下,可實現的最大覆蓋範圍提升近46%。目前,國際上已研製出最低0.1dB/km衰耗的空芯光纖,並且損耗在持續降低。
2024年,中國電信在杭州智算中心和義橋互聯網數據中心之間完成空芯光纜現網部署,標誌着空芯光纖具備實際應用的巨大潛力。基於現網部署的20km空芯光纖,實現了100.4Tbit/s的信號實時傳輸,容量距離積達到了2008Tbit/s·km。在光纖鏈路方面,實現超10km空芯光纖連續拉絲長度,並在擴展C與擴展L波段上實現最低0.6dB/km的衰減係數。在光纖接續方面,基於梯度放大斜切優化技術,實現單模光纖與空芯光纖單點連接損耗0.25dB、回損小於50dB的高性能連接。在實際部署方面,考慮到空芯光纖的實際結構,中國電信提出了三種防水方案,並解決了無法使用加強芯牽引穿管的問題。最終,在擴展C波段和擴展L波段分別傳輸41個單波1.2Tbit/s與64個單波800Gbit/s。
未來,應進一步提升空芯光纖製備工藝,降低損耗與成本,並深入研究部署運維方案,如快速便捷熔接、熔接損耗檢測、斷點檢測等,以加速空芯光纖的商用部署。
中國電信面向智算時代的光通信新技術應用探索
400G/800G現網混合速率傳輸驗證
面向城域以及長距離應用場景,中國電信於2024年在長江中下游地區的ROADM網絡,開展了業界首個單波長400G/800G混合速率傳輸系統現網試點,並基於擴展C波段與擴展L波段12THz譜寬,實現了最大傳輸容量64Tbit/s、最長傳輸距離超1200km的無電中繼傳輸,證實了混合速率傳輸的可行性。
目前,400G技術已在現網商用部署,預計其生命週期較長。同時,800G技術也在不斷髮展之中,針對“長三角”“京津冀”與“粵港澳”等流量需求較大的熱點區域,開通800G波長,並與400G骨幹網共用光層,進一步降低了建網的成本,僅需在現有的網絡上增加800G板卡即可實現。若400G與800G採用相同符號速率,甚至只需要在軟件層面修改收發板卡的調製格式等參數,即可實現速率的切換,大大降低了實現難度。
此次400G/800G混合速率現網試點可以加速推進800G商用部署,進一步提高網絡吞吐量和利用率,減少設備數量及降低能耗,提升網絡資源的利用效率,並可面向熱點區域打造差異化服務。
“S+C+L”超120Tbit/s實時傳輸
面向短距離智算中心互聯場景,2024年中國電信基於“S+C+L”波段實現了單纖超120Tbit/s實時傳輸紀錄,最高的單波長速率可達1.2Tbit/s;S波段譜寬爲5THz,C波段與L波段的譜寬均爲6THz,系統總譜寬達到了17THz。中國電信“S+C+L”實時超120Tbit/s實驗設置如圖3所示。
圖3 中國電信“S+C+L”實時超120Tbit/s實驗設置
實驗針對每個波段都採用了差異化的調製格式、符號速率、信道間隔,以最大化系統的頻譜效率。此外,針對多波段系統的波長相關損耗與功率轉移效應,採用了多波段系統填充波與自動功率均衡技術。對於S波段的信號放大,採用了摻銩光纖放大器,並針對放大器的噪聲與增益特性,系統性地調節激光器出光功率等參數,優化鏈路的光信噪比(OSNR)性能。最終,基於大有效面積(150μm2)的G.654光纖,實現了75km的傳輸,覆蓋數據中心互聯應用場景。
總結與展望
智算時代下的高速光通信技術已進入飛速發展階段,各類新技術的應用正以前所未有的速度改變着時代的進程。一方面,高速光通信技術將貫通智算集羣間、智算中心間與智算中心內組網;另一方面,高速光通信技術將滲透進系統內、芯片間與芯片內。
面向單點集羣的數據中心內部光通信技術,1.6T超高速光模塊配合先進的封裝工藝,可實現大帶寬、低成本與低功耗的DCN互聯;OCS技術的引入,突破傳統電交換功耗與時延的瓶頸,爲DCN網絡架構提供了全新的技術路徑。
面向分佈式集羣的數據中心之間光通信技術,800G/1.2T超高單波速率配合不斷擴展的傳輸波段,可大幅減少DCI互聯光層數量並降低成本;空分複用技術的引入在物理層面成倍地提高傳輸容量;空芯光纖的使用,爲DCI提供全新的思路。
面向未來,高速光通信產業各方將不斷革新,催生各類顛覆性技術,助力構建數據中心全新網絡架構,並在AI時代,爲大模型的高效訓練提供堅實的承載底座,推動未來產業的創新協同發展。