OpenAI第一場直播就炸場!o1滿血版上線,史上最貴訂閱費1450/月

OpenAI“雙十二”第一天,直接拋出重磅炸彈——

最強推理模型o1,正式上線滿血版,還有更強的Pro版本一同登臺。

ChatGPT也推出了Pro訂閱計劃,一個月兩百美金,直接成爲了“世界最貴的大模型”。

CEO奧特曼與三名員工圍坐桌前,一邊演示一邊介紹着新產品的特性。

整個發佈會僅持續不到15分鐘,但包含了巨大的信息量:

如奧特曼所說,滿血版已經正式上線ChatGPT,作爲預覽的preview版從用戶界面中消失了。

至於更強的o1 Pro則是ChatGPT Pro訂閱用戶的特權,除此之外,這些用戶還可以獲得o1滿血版的不限量訪問權限。

接下來到了演示環節。

一開始,團隊就拿滿血版o1(左邊)和o1-preview(右邊)來了場競速。

他們問了一個歷史問題,回答過程be like:

可以看出,滿血版o1(14秒)早於o1-preview(33秒)完成了作答。再加上團隊成員幾次類似的離線測試,最終得出結論:

滿血版o1的平均響應速度比o1-preview快了60%。

值得注意的是,通過一整套人類評估,OpenAI還發現滿血版o1在推理時犯重大錯誤的頻率比o1-preview少了34%。

而滿血o1的另一大亮點就是支持多模態輸入,具備視覺推理能力,團隊也進行了現場展示。

只見他們拿出了一張畫着數據中心草圖的A4紙,拍照上傳後,原始提示詞翻譯後如下:

這邊團隊成員們還在閒聊,10秒過後,模型就開始唰唰唰給答案了……

有意思的是,團隊還特意給o1模型挖了個坑——故意省略了其中一個參數,以此來測試模型面對模糊問題的處理能力。

在團隊看來,模型能夠意識到這是一個重要但被忽略的參數,也是推理能力的體現。

驚喜的是,滿血版o1不僅選擇了正確的參數範圍,還通過進一步的細緻論證最終找出了準確參數。

(如模型所回答,正確答案是242)

最後,團隊也展示了“大會員”專用的Pro版的表現。

既然是Pro,那測試的問題當然也要上上難度。

團隊成員指出,一些高難度的生化問題,以往o1-preview都搞不定,這下讓Pro mode來試試。

比如下面這道o1-preview曾“束手無策”的“猜蛋白質”問題:

只見提問後,Pro mode出現了一個“思考進度條”,大約53秒後模型給出了答案。

進一步點擊回答最上面的小框框,就可以在側邊欄展開推理細節,裡面詳細記錄了模型的思考步驟。

畢竟按照OpenAI的說法,o1(包括之前的preview版)在博士級科學問答上的表現是超過人類專家的。

不過有一說一,Pro版200美元一個月的價格也是讓網友們挺震驚的。

至於到底值不值這個價格,可能要等先試水的用戶用上一段時間之後的反饋了。

對了,團隊這次也提到,後面將以API的形式爲大家提供o1模型的一些功能,包括結構化輸出、函數調用、圖像API等。

BTW,活動結束前,奧特曼特意cue思維鏈作者講了一個笑話。

聖誕老人想用大語言模型來解決數學問題,結果任何提示詞都不管用,你知道最後是怎麼成功的嗎?

好冷……

o1滿血版發佈的同時,技術報告也在OpenAI官網上線。

這份報告當中,Ilya的名字依然位列基礎貢獻者(Foundational Contributor)之中。

在宣傳頁面當中,OpenAI公開展示了o1在數學、代碼和博士級科學問答三類任務上的成績。

在此基礎之上,OpenAI還進行了更加嚴苛的測試,每個問題會詢問四次,模型必須四次全答對才能得分。

除此之外,技術報告還展示了o1的多語言能力。

在包括中文在內的14種語言的MMLU測試中,o1的表現相比preview版均有程度不等的增強。

這裡插播一句,面對這種帶陷阱的弱智吧問題,滿血版o1依然是被成功矇騙(手動狗頭)。

不過這份報告更多圍繞着安全性展開討論,內部及紅隊測試結果表明,整體上滿血版o1在安全性與o1-preview接近。

如果和GPT-4o比,o1對有害內容的檢測和拒絕能力也更強,並且在越獄測試中展現出更強的魯棒性。

在現實風險上,OpenAI和紅隊針對網絡安全、生化和核威脅等情景對o1進行了測試,結果同樣與o1-preview接近。

另外,OpenAI對o1和o1-preview的思維鏈推理過程進行了欺騙性分析,通過讓模型解釋其行爲背後的思考,瞭解模型是否有隱瞞信息、操縱數據的傾向。

結果,o1-preview在26%的案例中會故意隱瞞信息操縱數據,而o1的比例降到了19%。

在發佈會開始之前,就已經有網友從ChatGPT的JS代碼中發現了Pro版的蛛絲馬跡。

其中,200美元的價格以及o1 pro模式,還有對滿血o1的不限量訪問,都和這次發佈對得上。

另外,從這份JS代碼中還能看到,在Team版本的相關位置,還出現了“GPT-4.5”。

再順便提一句,有網友讓馬斯克的Grok結合X上的推文預測了一下OpenAI都會發布些什麼,其中第二條成功命中了此次發佈的滿血o1。

不知道接下來的11個發佈日中,GPT-4.5是否會“如約而至”,Grok又能猜對多少個產品呢?

參考鏈接:[1]https://openai.com/index/introducing-chatgpt-pro/[2]https://x.com/theredwall__/status/1864677161535156358?s=46[3]https://x.com/btibor91/status/1864709670470066605技術報告:https://cdn.openai.com/o1-system-card-20241205.pdf