百川智能與鵬城實驗室宣佈合力研發“鵬城-百川·腦海33B”大模型
11月16日消息,百川智能與鵬城實驗室宣佈攜手探索大模型訓練和應用,合作研發基於國產算力的128K長窗口大模型“鵬城-百川·腦海33B”。
鵬城實驗室表示,雙方在合作過程中能夠充分發揮各自優勢形成合力,更好地滿足我國不斷增長的智能化轉型需求,助力中國人工智能產業快速崛起。
百川智能表示,本次百川智能與鵬城實驗室合作研發“鵬城-百川·腦海33B”長窗口大模型,是國產算力大模型技術創新和落地的一次突破。未來,百川智能將在技術、算力等諸多維度不斷深化與鵬城實驗室的合作,持續助力本土大模型創新發展。
與此同時,百川智能和鵬城實驗室展示了雙方共同研發的“鵬城-百川·腦海33B”大模型。“鵬城-百川·腦海33B”的128K長上下文窗口基於“鵬城雲腦”國產算力平臺訓練,未來可升級至192K,是基於國產算力訓練的最長上下文窗口。
據介紹,爲了更好地提升“鵬城-百川·腦海33B”上下文窗口長度和模型整體性能,百川智能和鵬城實驗室對模型進行了全流程優化。在數據集構建方面,採用精細的數據構造,實現了段落、句子粒度的自動化數據過濾、選擇、配比,良好的提升了數據質量;在訓練架構上,通過NormHead、max-Z-Loss、dynamic-LR等自研或業界領先的模型訓練優化技術,對Transformer模塊進行深度優化,確保模型收斂穩定的同時,全面提升了模型優化效率和最終效果;此外,還在全生命週期的模型工具集中,通過與北京大學王亦洲、楊耀東老師團隊的合作,首創了帶安全約束的RLHF對齊技術,有效提升了模型內容生成質量和安全性。
未來,雙方將在國產算力大模型技術創新和模型落地等方面繼續加強合作,並與相關領域的優勢單位如北京大學、清華大學等開展協同創新,助力本土大模型在模型性能、技術創新方面持續突破。(一橙)