“雲與AI齊飛”“軟件與硬件齊奔”:記2024年雲棲大會
2024年9月19日上午,在2024年雲棲大會主論壇上,沒有發佈任何阿里系的新產品。除了領導致辭和主題演講之外,舞臺主要被交給三組圓桌討論,圓桌話題分別是“人形機器人的‘圖靈時刻’”“生成式AI重塑自動駕駛”“通往AGI的大模型發展之路”。
在所有圓桌論壇嘉賓中,沒有任何一位阿里人的參與,甚至連主持人都是專門外請的。而這些嘉賓,則分別來自於業界和學界。看得出來,秉持“雲啓智躍,產業蝶變”的大會主題,本屆雲棲大會在展示自家產品的同時,也非常希望攜手各方一起觸摸AI帶給人類的改變。
(來源:資料圖)
在“人形機器人的‘圖靈時刻’”圓桌討論中,幾位嘉賓探討了人形機器人這一物理智能載體在大模型帶動下所發生的變化。
逐際動力創始人張巍認爲:“這一代AGI的發展,相比上一代最大的區別,從專用到通用的一個變化。在大模型出來之前,我感覺通用這個詞是個貶義詞,通用就證明它是沒什麼用。但是大模型出來以後,大家發現像以前我們這種在專業領域裡搜數據、去做專項任務的這種訓練的方式是有很大侷限性的,要先構建一個通用的基礎模型的能力,然後再在上面長出專用的能力,這纔是系統化解決泛化性的一個關鍵。我覺得軟件算法的通用性就靠大模型技術,機器人跟物理世界交互的這個通用性,就靠人形機器人。”
北京大學助理教授,北大-銀河通用具身智能聯合實驗室主任、智源學者王鶴表示:“現在的通用機器人,雖然有一些技能,但幾乎都是分立的一些小模型。大模型賦能這些技能有幾步:第一步是大模型可以作爲一個Agent來調用這些API進行長程的任務規劃,第二步是大模型可以作爲一個Monitor,它能觀察小模型在執行任務中有沒有出現錯誤,並能及時去終止或者調用別的技能來挽救這些錯誤,比如藥盒掉到地上了,它立馬說‘你得給它撿起來’;第三步則是最有想象力的端到端,即把動作作爲大模型輸出的模態,像自動駕駛一樣實現一個把通用感知、通用規劃或通用執行融爲一體的大模型。”
清華大學交叉信息研究院助理教授、星動紀元創始人陳建宇表示:“人形機器人技術分成三大塊,就是大腦、小腦和本體。這裡面最關鍵的,我個人認爲是小腦的層面,它承接大腦裡的你的思考、調用硬件本體,真正能幫助我們在這個世界裡面幹活。現在人形機器人小腦部分相比於其他幾個部分反而是最薄弱的,同時也是技術的不確定性最高的。我們希望人形機器人的小腦和雙腿能夠像人一樣又穩又快又靈活,能夠幫助我們達到任何一個地方去,我們希望它的雙手能夠幫助我們上的廳堂、下的廚房、進的工廠,什麼都能夠去幹。”
宇樹科技創始人、CEO王興興對於機器人應用落地持有相對樂觀的態度,其表示:“我覺得到明年,人形機器人在一些固定場景做一些有商業價值的落地應用。我覺得3年左右至少在全球範圍內,很有概率出現通用型的機器人AI。因爲跟過去10年不一樣的是,現在整個機器人AI的人才投入和資金投入都是巨量,都是幾百倍甚至上千倍的投入,所以整個時間進展會比較快。”
與此同時,還有多款由學界和業界打造的機器人在大會展區亮相。
比如。由華中科技大學團隊打造的超聲引導自主手術機器人,能在術中變形環境裡實現精準的組織消融。
圖 | 華中科技大學超聲引導自主手術機器人(來源:資料圖)
由銀河通用打造的蓋博特G1機器人則能像便利店的理貨員一樣,整理貨架上的飲料和零食。
圖 | 銀河通用機器人(來源:資料圖)
儘管目前並不直接生產機器人,但是阿里雲也設置了用通義靈碼AI編碼助手體驗機器入開發的展臺。
圖 | 用通義靈碼AI編碼助手體驗機器入開發(來源:資料圖)
展區還設有一個人形機器人先進陣列,引得不少觀衆前往觀看和體驗。
圖 | 人形機器人先進陣列(來源:資料圖)
此外,本屆大會還展出了幾個由阿里雲參與的機器人合作案例。比如,拓斯達機器人將傳統的工業機器人控制軟件與通義大模型結合升級新能力,可與現場工程師通過語言交互,以無代碼的方式完成碼垛、噴塗、裝配等複雜任務。浙江有鹿機器人公司聯合通義大模型共同開發了適用於輪式、複合式等多類型機器人的通用大腦,在智能清潔設備上率先實現了商用,其能自動地觀察、規劃和完成區域清掃任務,也能聽懂人的語言指令從而完成定點清潔工作。
小鵬汽車董事長CEO何小鵬、NVIDIA全球副總裁&汽車事業部負責人吳新宙雙雙亮相圓桌論壇,毫無疑問是主論壇的看點之一。從曾經的同事、到如今的業界同仁,他們不僅在圓桌論壇中發表了各自的觀點,也都帶着自己業務和阿里雲的合作案例來到本次大會。
會上,何小鵬駕駛“全球首款AI汽車”P7+亮相,這款汽車搭載了一款端到端大模型。端到端是當下最受業界關注的自動駕駛解決方案,它同樣遵循Scaling Law。小鵬汽車能夠率先實現端到端大模型量產上車,離不開在算力上的提前佈局。爲了提升智駕大模型訓練效率,小鵬汽車在2022年攜手阿里雲在內蒙古烏蘭察布建成中國最大的自動駕駛智算中心,將自動駕駛模型訓練效率提升了600多倍。而近兩年內,由於大模型技術快速發展,阿里雲已將此智算中心的算力儲備擴張超4倍至2.51Eflops,爲小鵬汽車提供穩定高效的算力底座,讓智駕實現“全國都好用”。2024年5月,小鵬汽車在國內率先實現端到端自動駕駛量產上車,並在全國範圍內迅速落地。
業界普遍認爲,未來端到端智駕的算力需求還將進一步擴大,上億元投入僅是智駕算力的“入場券”。爲進一步保持先發優勢,小鵬汽車宣佈每年投入35億元用於研發,其中7億元用於算力訓練,還將與阿里雲持續深化合作,加速推動端到端大模型落地。
事實上,小鵬汽車不僅實現了端到端大模型量產上車,還將大模型深入應用到了座艙場景中。小鵬汽車基於自主研發的“全域大語言模型”X-GPT及通義千問全面升級了車載助理。目前,小鵬汽車已在官方App中接入通義萬相,在研發場景中通義靈碼的代碼評審採用率高達50%。
儘管不是汽車廠商,但是NVIDIA也是新能源行業的重要參與者。目前,NVIDIA DRIVE Orin系統級芯片已經實現與阿里雲通義千問多模態大模型Qwen2-VL的深度適配。阿里雲、以及阿里集團旗下的斑馬智行則聯合NVIDIA推出艙駕融合大模型解決方案,基於通義大模型開發“能聽會看”的智能座艙助理,讓車內人員通過語音交流就能操作座艙內的各類應用,這有望爲乘客提供座艙環境控制、車內休閒娛樂、駕駛行爲監測等擬人化的服務。
而通義大模型的智能座艙解決方案,能爲座艙配備一位具備感知、思考、決策能力的“智能助理”,它不僅能觀察和理解用戶的語音及手勢,還能根據環境信息和常識判斷做出自主決策。乘客無需物理按鍵,只要動動嘴巴,就能讓智能助理完成各種任務。值得注意的是,上述解決方案以通義大模型爲“大腦”,集成了通義大語言模型Qwen2-7B和通義多模態模型Qwen2-VL。
同時,通義實驗室最新發布的Mobile Agent V3首次落地汽車座艙場景,能夠提供座艙屏幕感知、複雜任務規劃以及座艙應用UI的操作決策能力,擴展了座艙智能助理的能力邊界。斑馬智行也已經爲艙駕融合多模態大模型解決方案的落地提供了工程環境,將大模型能力絲滑嵌入汽車座艙、匹配用戶操作習慣。未來,通義大模型還將採用NVIDIA DRIVE Thor新一代集中式車載計算平臺。
而在阿里雲和“汽車好朋友”的牌桌上,也有小米、零跑汽車和極氪汽車等廠商。比如,小米旗下的人工智能助手“小愛同學”也已與通義大模型達成合作,並重點強化了圖片生成、圖片理解等多模態AI生成能力,目前已在小米汽車、小米手機等多類設備落地。零跑汽車則攜手阿里雲在座艙場景中增加語音大模型功能,除了用於閒聊、基礎知識問答以及文生圖等場景之外,用戶還能通用語音調用通義萬相進行文生圖。極氪汽車的座艙則可以調用大模型實現文生圖,不僅能將作畫時間控制在秒級,還可以將這幅畫設置爲背景圖。
如前所述,在9月19日上午的主論壇上,雲棲大會主要包含致辭部分和三場圓桌論壇。直到9月19日下午的主論壇,阿里雲纔開始發佈自家新品。當天,阿里雲開源了通義千問Qwen2.5,推出了通義萬相視頻生成模型,宣佈通義千問三款主力模型再降價,展示了通義靈碼AI編程能力的“新肌肉”,亮相了一系列AI基礎設施,展示了無影AI雲電腦的能力升級,並宣佈魔搭AIGC專區上線。
會上,阿里雲CTO周靖人發佈通義千問新一代開源模型Qwen2.5。Qwen2.5全系列涵蓋多個尺寸的大語言模型、多模態模型、數學模型和代碼模型,每個尺寸都有基礎版本、指令跟隨版本和量化版本,此次累計同時上架語言、音頻、視覺等100多款全模態模型。Qwen2.5全系列模型都在18T tokens數據上進行預訓練,相比Qwen2整體性能提升18%以上,擁有更多的知識、更強的編程能力和數學能力。
在語言模型上,Qwen2.5開源了7個尺寸:0.5B、1.5B、3B、7B、14B、32B、72B。在專項模型上,用於編程的 Qwen2.5-Coder和用於數學的Qwen2.5-Math都比前代有着實質性進步。同時,還開源了1.5B、7B、72B三個尺寸的模型、以及一款數學獎勵模型Qwen2.5-Math-RM。在多模態模型上,視覺語言模型Qwen2-VL-72B也已正式開源,它能識別不同分辨率和長寬比的圖片,理解20分鐘以上長視頻,具備自主操作手機和機器人的視覺智能體能力。
另外,通義旗艦模型Qwen-Max迎來全方位升級,性能接近GPT-4o。相比上一代模型,Qwen-Max在訓練中使用了更多的訓練數據、更大的模型規模、更強的人類對齊。相比2023年4月的初代通義千問大模型,Qwen-Max的理解能力提升46%、數學能力提升75%、代碼能力提升102%、幻覺抵禦能力提升35%、指令遵循能力提升105%,模型與人類偏好的對齊水平提升700%以上。目前,通義官網和通義APP的後臺模型均已切換爲Qwen-Max,繼續免費爲所有用戶提供服務。用戶也可通過阿里雲百鍊平臺調用Qwen-Max的API。
(來源:資料圖)
此次會上,通義萬相也迎來了全面升級,併發布了全新視頻生成模型,首批上線了文生視頻功能和圖生視頻功能,可以生成影視級的高清視頻。
在文生視頻功能中,用戶輸入任意文字提示詞,即可生成一段高清視頻,支持中英文多語言輸入,並可以通過靈感擴寫功能來豐富視頻的內容表現力,支持16:9、9:16等多種比例生成。在圖生視頻功能中,支持用戶將任意圖片轉化爲動態視頻,按照上傳的圖像比例或預設比例進行生成,同時可以通過提示詞來控制視頻運動。
會上,阿里雲演示了該模型的運動生成能力和概念組合能力,輸入「穿着滑冰鞋的小兔子在冰面上靈活移動的可愛場景」,通義萬相僅用數分鐘就能生成一段既高清又逼真的視頻。
與此同時,通義萬相宣佈視覺生成大模型全面升級爲Diffusion Transformer框架,同時結合通義千問複雜提示詞解釋能力,有效提升了畫面表現力、語義理解能力、可控生成能力。隨着通義萬相視頻生成模型的發佈,通義大模型已覆蓋文本生成、圖像理解、視頻理解、音頻理解、圖像生成、視頻生成等全模態場景。即日起,所有用戶可通過通義APP和通義萬相官網免費體驗。
(來源:資料圖)
在價格上,繼2024年5月首次大幅降價後,阿里雲百鍊平臺上的三款通義千問主力模型再次降價。Qwen-Turbo價格直降85%,低至百萬tokens 0.3元。Qwen-Plus和Qwen-Max分別再降價80%和50%。
其中,Qwen-Plus推理能力追平GPT4,可應用於複雜任務,是效果、速度及成本均衡的最優選擇。降價後,Qwen-Plus性價比達到業界最高,同等規模較行業價格低84%。同時,阿里雲百鍊平臺還爲所有新用戶免費贈送超5000萬tokens及4500張圖片生成額度。
面向編程場景,有着“AI程序員”之稱的阿里雲通義靈碼迎來再次升級。和上一代產品不同的是,它同時具備架構師、開發工程師、測試工程師等多種崗位技能,能自主完成任務分解、代碼編寫、缺陷修復、測試等開發開發工作,能以最快分鐘級的速度完成應用開發,助力軟件開發速度提效數十倍。
全新升級的通義靈碼模擬了人類程序員的能力,可完成更復雜、更全面的任務。此外,通義靈碼還可以脫離專業IDE軟件,在Web端直接執行缺陷修改、需求分析、代碼實現、問題排查等任務工作流,兼具架構師、開發工程師、測試工程師等多種崗位技能,大幅縮短了應用的開發週期。
例如,真人程序員手動開發一個網頁,通常需要1天的時間完成需求分解、寫代碼、測試等任務。現在,人類只需要輸入需求,通義靈碼5分鐘就能完成整個過程。阿里雲表示,未來只要有創意,不懂代碼也能開發應用和軟件。
目前,通義靈碼已經“入職”中華財險、哈囉集團、長安汽車等公司,累計生成代碼超10億行。
全新升級後的AI Infra系列產品及能力,也在本次會上亮相。通過全棧優化,阿里雲打造出一套穩定和高效的AI基礎設施,連續訓練有效時長大於99%,模型算力利用率提升20%以上。
在服務器方面,基於全新的CIPU2.0阿里雲全新推出磐久AI服務器,實現單機16卡、顯存1.5T以上,支持Solar RDMA互聯。磐久AI服務器採用超鈦金電源,能夠實現97%以上的高能效,並可通過AI算法預測GPU故障,準確率達92%。
在存儲方面,阿里雲並行文件存儲CPFS實現端到端全鏈路性能提升,單客戶端吞吐達25GB/s,高性能數據流動達到100GB/s,爲AI智算提供指數級擴展存儲能力。
在網絡架構方面,專爲AI設計的高性能網絡架構HPN7.0,性能和穩定性也再次提升,其集合通信性能提升1倍以上,模型端到端訓練性能提升10%以上。
在阿里雲靈駿集羣方面,通過底層計算、存儲、網絡等基礎設施的升級,靈駿集羣可提供超大規模、超強性能的智能算力,萬卡規模性能線性度超過96%,並行存儲吞吐20TB/s,萬卡規模下網絡帶寬利用率超過99%,可支持單集羣十萬卡級別AI算力規模。
在人工智能平臺方面,阿里雲PAI也已實現萬卡級別的訓練推理一體化彈性調度,AI算力有效利用率超90%。
在安全體系方面,通義大模型基於阿里雲的安全基座,實現了生成式人工智能安全保障的最佳實踐,將內容安全能力覆蓋到大模型全生命週期中。同時,阿里雲安全爲百鍊平臺的專屬部署模式設計了VPC安全保障方案,讓客戶在私域環境中也能獲得數據確權歸屬等系列安全服務。
“AI+娛樂”自然也不會缺席雲棲大會。會上,阿里雲無影AI雲電腦全新亮相,基於最新的終端雲計算技術和AI大模型能力,無影的綜合體驗大幅提升,新增了彈性升降配、雙網自由切換、多端操作系統知識庫問答、編碼大師等AI智能體功能,爲安全辦公、個人娛樂帶來全新的雲上流暢體驗。相比傳統PC,雲電腦在操作體驗、性能配置和數據安全保護方面已經完成了全面的超越,更有按需付費、極簡運維、內置原生大模型等明顯優勢。
以無影個人版的電競模式爲例,其能提供12核CPU、46G內存、11G顯存的配置,可輕鬆暢玩《黑神話:悟空》等3A遊戲大作,1080P分辨率下幀率穩定在60幀左右。雲棲大會期間,無影還新增了雲遊戲模式,直接免去了遊戲下載和性能配置的步驟,可在MacOS、Android、iOS等多種終端之間隨意切換。
針對有安全要求並充分隔離的網絡環境,全新發布的無影專屬版支持“同屏雙網”自由切換。雙網之間通過“文件擺渡”在隔離的網絡環境之間進行傳輸,實現事前審批和事後審計,確保數據高效傳輸的同時“有跡可循”,進一步保障數據安全和用戶體驗。
針對企業級用戶,無影企業版升級了全新的運維管理系統,徹底告別了過去複雜的運維困境,只需在後臺輕點鼠標,即可完成系統升級、鏡像管理、數據備份和權限管控等功能。
針對生態夥伴,無影推出了“星火計劃”,開放軟硬件接口,提供開發適配支持和專屬在線知識庫,讓生態夥伴能夠快速地在不同場景下部署各類解決方案,充分滿足快速增長的廣闊空間。
針對開發者,無影還推出了全新的開發者計劃,所有軟件開發者都可免費入駐無影應用商店,通過這個應用分發平臺爲廣大的雲電腦用戶提供豐富的產品和服務。
總的來說,雲電腦與AI的結合,無需消耗用戶本地算力資源,還可多終端跨平臺使用。一個無影賬號就能在各類環境下調用大模型能力,徹底擺脫了終端硬件的限制。
而爲了讓更多用戶體驗到雲電腦,無影宣佈即日起所有用戶都可免費領取一臺無影雲電腦(有效期1個月),使用時在支付寶搜索“無影雲電腦”小程序即可領取。
(來源:資料圖)
目前,阿里雲的魔搭社區已成爲中國最大的模型社區,擁有超690萬開發者用戶,與行業合作伙伴合作貢獻了超10000款模型。
此次會上,魔搭社區宣佈正式上線AIGC專區,爲開發者提供從模型到應用的一站式AI創作開發平臺,目前所有功能板塊及GPU算力全部免費開放。
魔搭AIGC專區首批上架了157款精選多模態模型,其中既有FLUX、Stable Diffusion、RealVisXL、萬象熔爐等社區熱門模型,也包含衆多設計師貢獻的黏土風、像素風、漫畫風、超現實主義、線條手繪等小衆風格化LoRa模型。
在魔搭AIGC專區,除了直接下載模型,開發者還可在線調用各類模型進行快速生圖,支持AI自動翻譯和優化咒語,給出正向提示詞及負向提示詞,還可以對採樣方法、提示詞引導係數、隨機種子、採樣步數、圖片尺寸等參數進行調節。同時,魔搭AIGC生圖支持圖生圖、局部重繪、Adetailer人臉修復、ControlNet細節調控等深度功能。
對於有更專業需求的開發者或設計師,魔搭AIGC專區支持批量上傳圖片對模型進行LoRa微調,目前已上線Stable Diffusion、Q版IP、動漫、寫實風等多個模版,最低10張圖片即可完成模型訓練。用戶還可以在魔搭AIGC專區在線調用ComfyUI工作流,創建或複用相關模版來進行創作。
後續,魔搭AIGC專區也將上架視頻、語音等更多模態的模型和應用,爲開發者提供最優的一站式AIGC體驗。
(來源:資料圖)
總的來說,本屆雲棲大會是一個“雲與AI齊飛”“軟件與硬件齊奔”的大會。AI,也仍將是阿里雲的發展重點。
(來源:資料圖)
正如阿里巴巴集團CEO、阿里雲智能集團董事長兼CEO吳泳銘在主題演講中所說:“這一切纔剛剛開始,要實現真正的AGI,下一代模型需要具備更大規模、更通用、更泛化的知識體系,同時也將具備更復雜更多層次的邏輯推理能力。”
他認爲,AI具備創造能力、幫助人類解決複雜問題的路徑清晰可見,也打開了AI在各行業場景中廣泛應用的可能性。在各行各業,看不見的新產業革命正在悄然演進。所有行業都需要性能更強、規模更大、更適應AI需求的基礎設施。
因此,阿里雲正在以前所未有的強度投入AI技術研發和基礎設施建設。目前,阿里雲的單網絡集羣已拓展至十萬卡級別,並正在從芯片、服務器、網絡、存儲到散熱、供電、數據中心等方方面面,重新打造面向未來的AI先進基礎設施。