英特爾推大陸特供版AI加速晶片Gaudi 3 為適應美國制裁將削弱
英特爾將推出大陸特供版AI加速晶片 Gaudi 3。(路透)
英特爾日前公佈新一代AI加速晶片Gaudi 3 之後,最新消息指出,英特爾將推出兩款中國獨家型號的AI加速晶片 Gaudi 3,但爲了適應美國的制裁,它們將受到嚴重削弱。
陸媒半導體行業觀察報導,英特爾的 Gaudi 3 白皮書詳細介紹兩種獲准在中國銷售的型號。這兩款專爲中國製造的處理器分別爲 HL-328 和 HL-388,分別採用 OAM 和 PCIe 外形規格,前者於 6 月推出,後者於 9 月推出,與其他 PCIe 外形規格的 Gaudi 3 一起推出。
總體而言,HL-328 和 HL-388 看起來或多或少與其他產品相同,具有相同的 128GB HBM2e VRAM,帶寬爲 3.7TB/s、96MB 緩存、PCIe 5.0 x16 介面和解碼標準。
唯一的區別在於熱設計功耗,OAM 和 PCIe 卡型號均爲 450 瓦。這與其他型號相比大幅減少。非中國 PCIe HL-338 的 TDP 爲 600 瓦,OAM 外形規格 HL-325L 和 HL-335 的 TDP 爲 900 瓦。China Gaudi 3 型號的 TDP 相對較低,這可能是沒有液冷版本的原因。
儘管白皮書中沒有明確說明,但幾乎可以肯定的是,爲了遵守美國政府對處理器的出口管制,做出這些改變是必要的,該管制禁止美國公司根據性能向中國出口晶片。
陸媒分析,無法真正知道英特爾對 Gaudi 3 做了什麼來使其相容,以及這些批准用於中國的晶片在這些變化中的執行速度有多快,但有一些線索。與其他 Gaudi 3 變體一樣,HL-328 和 HL-388 仍然使用兩個晶片,因爲記憶體和緩存配置未更改。使用兩個晶片而不是一個晶片有助於降低性能密度,使晶片能夠達到 4,800 總處理能力 (TPP) 的更高出口限制。
4,800 TPP 限制意味着沒有晶片可以擁有 150 TFLOPS 或更多的 16 位元性能,並且由於 Gaudi 3 在 BF16 下可以達到 1,835 TFLOPS,因此英特爾需要大幅降低性能。這必須通過真正大規模削減核心數量和時鐘速度或其他一些性能限制方法來實現。
陸媒預期 HL-328 和 HL-388 的性能與Nvidia 的 H20類似,H20 是最快的 GPU,已獲准在中國銷售。它具有 148 TFLOPS 的 FB16 和 FP16 性能,略低於 150 TFLOPS 限制。
由於H20和Gaudi 3的中國型號之間的原始核心性能或多或少相同,因此主要區別將歸結爲記憶體(英特爾的容量更大但帶寬略少)和軟體(這一直是一個賣點)適用於 Nvidia 晶片。