火遍小紅書的 AI 視頻神器,這次整出的新活又讓我停不下來

AI 視頻的多主體一致性,向來是個難題。讓 AI 憑空生成模特和衣服不難,但如果甲方要求,必須要讓馬斯克代言,穿上毛絨大衣,AI 可能就辦不到了。

Pika 最近更新的 2.0 模型,提出了一種很有趣的解決方式——我們上傳多張圖片,Pika 會精準參考圖片中的元素,生成視頻。

集齊人物、商品、場景的照片,一個非常基礎的廣告片就出爐了,而且這些素材在視頻里長得都和照片裡一樣。

這是否意味着,AI 視頻的一致性難題解決了,廣告行業的朋友們又要焦慮了?其實並沒有,經過實測,Pika 的可玩性很高,但論實用,道行還不夠。

關注 AI 第一新媒體,率先獲取 AI 前沿資訊和洞察

馬斯克和奧特曼看電影,名畫吃薯條,同框從未如此簡單

Pika 上傳多張參考圖片的功能,叫作「Scene Ingredients」(場景成分)。

使用起來很簡單:1. 點擊「+」上傳圖片,上限 6 張;2.在文本框裡,寫上簡單的提示詞。

接下來就進入實操—— 讓鬧得水深火熱的馬斯克和奧特曼,化干戈爲玉帛,在一起看電影。

提示詞:兩個人坐在漆黑的觀衆席中。他們手捧一桶爆米花,一把放到嘴裡嚼着,全神貫注地看着眼前的場景。他們睜大眼睛的表情傳達出熱切的期待或着迷,彷彿他們完全沉浸在正在展開的戲劇或場景中。周圍的環境表明人羣擁擠,但焦點仍然集中在他們的反應上

上傳兩位的照片就夠了,觀衆席可以用提示詞寫出來。

對於馬斯克,AI 的發揮很穩定。但奧特曼看起來是地主家的傻兒子,吃相恐怖就不說了,眼睛大得要掉出來。

Pika 很有趣的一點是,素材可以「複用」。

所以,我們可以讓馬斯克和奧特曼過把模特癮。只上傳一張服裝圖片,然後通過提示詞,讓他們穿着一樣的綠色大衣,拍個時尚大片。

提示詞:兩名男子在壯麗的冬日風景中站在一起自拍。兩人都穿着相同的綠色長外套。全身照,從頭到腳展現他們。他們擺出專業模特般的姿勢,臉上掛着自信的微笑。電影燈光突出了他們的臉龐和外套的奢華質感。高端時尚攝影風格,專業相機品質,時尚雜誌美學

兩人的照片都找了現成的,綠色的大衣和冰天雪地的背景是另外用 AI 生成的,衣服上的「AIGC」,算是考驗 Pika 的附加題。

結果,場景和大衣的一致性保持得不錯,「AIGC」的字樣依稀可以辨認,兩位模特的動作也遵循了提示詞。

但最大的問題是,這兩人是誰?視頻的人臉和照片,不能說一模一樣,可以說是毫不相干。

不信邪,繼續讓 Pika 玩換裝。

這次,我們請出扎克伯格,照例先用 AI 圖片工具生成衣服,上面寫着「I was human」(我曾是人類),呼應經典的機器人梗。

然後,再找一張扎克伯格的圖片,和一把尤克里裡的圖片,讓小扎玩個音樂。

提示詞:一位身穿黑色 T 恤的男子站在溫馨的房間裡,彈奏着尤克裡裡琴。鏡頭從中遠景開始,展現他的整個身體,逐漸拉近,最後聚焦在 T 恤上的字跡上

Pika 對提示詞的遵循和鏡頭的運動都挺好,衣服也絲滑地穿上了,但右手,尤其大拇指,還是不完美。

相較 Google Veo、OpenAI Sora 等,Pika 的模型能力不算頂尖,一個問題解決了,還有更多的 bug 被發現。

嘗試了寫實的,再來試試二次元畫風,爲了讓阪田銀時和漩渦鳴人同框,我特意挑選了兩張背景都是藍天白雲的圖片。

提示詞:動漫風格的場景,鏡頭聚焦在兩個年輕男子的臉上,背景是蔚藍的天空和白雲。他們一邊聊天一邊眼神交流,保留了原有的動漫藝術風格

背景融合得很自然,兩位正面的表情發揮不錯,吹動頭髮和衣服的風也恰到好處。然而,轉身實在太可怕了。銀時是死魚眼,不是真的翻白眼啊喂。

次元壁都打破了,當然也可以讓名畫跨年代互動——蒙娜麗莎和戴珍珠耳環的少女在麥當勞餐廳吃薯條。

提示詞:蒙娜麗莎和戴珍珠耳環的少女正在麥當勞餐廳用餐。她們相對而坐,桌上擺着薯條。她們邊聊天邊品嚐薯條,攝像機從側面捕捉她們,兩位角色偶爾看向鏡頭,營造出一種隨意而友好的氛圍

效果一言難盡,看到蒙娜麗莎,不知道達芬奇想不想掀棺材板。兩位好像貼圖一樣,被放在了視頻裡,頭部也運動得非常詭異。

有時候,迴歸簡單,道法自然,結果反而超出預期。

提示詞:特寫鏡頭,池塘表面出現氣泡,然後咖啡杯從水中浮出

上傳一張星巴克的圖片,一幅莫奈的睡蓮,就可以得到一個「清水出芙蓉」的咖啡杯。

PK 國產模型,控制 AI 視頻的門檻更低了

一定程度上,Pika 提高了視頻的可控性。話不說滿,因爲從實踐看來,Pika 在場景、服裝、物品上的一致性保持地較好,人物的臉容易崩,不管是什麼次元。

同時,模型的基礎能力,Pika 也有待進步,吃東西、彈琴等物體運動,仍然會出現問題。這些問題,能不能通過抽卡緩解呢?

三個字:抽不起。

Pika 2.0 目前僅對 Pro 和 Fancy 用戶開放,如果按月訂閱,每月至少花 35 美元,連免費試用的額度都沒有。

而且,Pro 用戶每月只有 2000 積分,但使用 Scene Ingredients 功能,一個視頻就要花掉 100 積分。

vidu 界面

其實,國產 AI 視頻模型 Vidu,比 Pika 更早地實現了「多圖參考」的功能。更拿捏用戶的是,它有免費體驗的積分。

Pika 的幾個案例,我也在 Vidu 跑了一下。蒙娜麗莎和戴珍珠耳環的少女吃薯條,兩位像剛出土,但蒙娜麗莎的還原度比 Pika 高。

馬斯克和奧特曼一起看電影,馬斯克的臉像了七八成,奧特曼的臉依舊災難。

阪田銀時和漩渦鳴人同框,Vidu 居然能基於正臉生成側臉,但畫風和原圖不太一樣。

另外,在功能上,Vidu 有一點不如 Pika——最多隻能上傳三張圖片。所以,讓 Vidu 給馬斯克和奧特曼拍時尚大片,我就沒有上傳背景,只上傳了兩位的照片和綠色的大衣。

兩位給人的感覺很陌生。可以看出,人臉的穩定性,仍然是個難題。

和 Pika 相比,Vidu 效果如何,可以見仁見智。Pika 用的是 Pro 版,Vidu 用的是免費版,客觀上也會導致兩者的差異。

但 Pika 和 Vidu 的思路是相似的——僅靠幾個圖片素材、一段簡單的提示詞,就生成相對穩定的物體。

在 AI 視頻生成中,保持主體一致性,目前相對可靠的是 LoRA 方案,用一定數量的、特定主體的素材,對模型進行微調。通過適量的素材和訓練,模型能逐漸掌握這個角色的樣貌特徵。

但爲了讓 AI 視頻被更多人用起來,有更廣闊的商業價值,門檻就要降低。至少,從 Vidu 和 Pika 身上,我們看到了可能性。

靠 AI 短視頻出圈,在整活的道路上一去不復返

Pika 的 2.0 模型發了沒幾天,海外網友已經玩瘋了。

拿自己的照片,反覆生成不同場景的視頻,就可以實現「瞬息全宇宙」。

圖片來自:X@EladRichardson

通過 AI 一鍵試衣,模特和衣服如流水,場景都不帶換的,實拍的錢省下來了。

圖片來自:X@martgent

玩着玩着,Pika 給了我一種玩「QQ 秀」和模擬人生的感覺,怎麼打扮視頻裡的角色,我們來決定。

如果讓馬斯克「圓夢」,很容易,先用其他 AI 工具,生成了一件「佔領火星」的 T 恤、一個寫着「MAGA」的紅色帽子。

然後,把這些圖片、火星的場景、馬斯克的照片,以及他的擎天柱人形機器人、他特別喜歡的網紅表情包 Doge 原型,全部上傳到 Pika。

提示詞:一名男子站在火星表面,身穿黑色T恤,頭戴紅色帽子。他的左邊坐着一隻狗,右邊站着一個機器人。鏡頭以廣角鏡頭開始,捕捉男子、狗、機器人的全身。隨着鏡頭平穩拉近,男子朝鏡頭歡快地揮手,表情洋溢着喜悅和冒險精神

最終,一個陽光開朗大男孩出現,左牽黃,右擎蒼,憨厚有餘,但就是不像馬斯克。

像不像是一回事,只要思路開闊,玩法無窮無盡。

基於我們自己和名人的照片,可以無痛追星。上傳帽子、衣服、樂器,能把自己從頭打扮到腳。集齊場景、產品、模特,一個 5 毛特效的廣告片子就有了......

照片+AI 圖片+Pika 2.0+提示詞,可以生成很多好玩的畫面。同時,這樣的生成方式也規避了一些視頻模型的短板,比如寫字,在圖片模型就可以解決。

不和 Google 硬剛模型能力,不和 Runway 這種逐夢好萊塢的對手比較,Pika 有自己的彎道超車玩法。

其實一直以來,Pika 在整活和創意方面就是一把好手,之前的一系列 AI 特效功能 Pikaffect 全網爆火,刷屏小紅書和 TikTok,推動 Pika 用戶突破 1100 萬。

AI 捏捏. 圖片來自:Pika

AI 切蛋糕. 圖片來自:Pika

Pika 切中了一羣對整活短視頻有高需求的用戶,哪怕這些視頻是模板化的,稍縱即逝的,但只要有趣,人們就會蜂擁而至。

誰說贏者通吃纔是勝利?AI 的市場是廣闊的,模擬物理世界固然是個遠大的夢想,先完成讓 AI 短視頻有趣起來的小目標,未嘗不是一種成功的方式 。