我爲何永遠拒絕人工智能文本轉視頻生成器

我嘗試了幾種人工智能文本轉視頻生成器,雖然這項技術無疑令人印象深刻,但最終結果總是有一些不對勁的地方。花了好一會兒才指出問題所在,但我最終意識到這都歸結爲一件事:恐怖谷效應。

雖然我在我的視頻項目中確實使用了一些人工智能驅動的視覺效果工具,但我無法讓自己使用人工智能來生成視頻片段,因爲它看起來太......怪異了。

由於深度學習的進步,人工智能視頻生成在短時間內取得了巨大的進步。如果您在 2023 年人工智能視頻生成大熱的時候在線,您可能還記得威爾·史密斯吃意大利麪的這個片段在網上流傳。儘管這種技術在當時具有開創性意義,但不可否認它看起來是多麼不自然和令人不安。

在 2024 年,這些生成式人工智能視頻工具正變得更加完善,創造出更流暢的視覺效果和更逼真的動作。瞧瞧 2023 年用 Runway Gen-2 創作的視頻和 OpenAI 在 2024 年爲推出 Sora AI 所公佈的視頻之間的差別。Sora 尚未向公衆開放使用,但這是承諾給我們的質量水平:

儘管有了改進,我還是沒被打動。首先,Sora 還沒法用,所以咱們還是得用那些不太精細的生成器,它會產生跟威爾·史密斯的意大利麪視頻一樣讓人毛骨悚然的結果。

瞧瞧我用PixVerse根據提示“一個人在陽光明媚的日子裡穿過公園,微笑着向鏡頭揮手。鳥兒在頭頂飛翔,樹木在微風中輕輕搖曳。”創作的這個視頻呀。

前兩秒鐘看起來還算不錯,直到這個人的手指、頭髮還有臉開始融入到空氣中!即使更先進的像 Sora 這樣的生成器出現並且給我們提供更準確、更漂亮的視頻,人工智能生成的人和風景還是有那麼點兒令人不安。

而較舊的模型通常生成的視頻有着明顯的人工智能特徵,比如那些黏土動畫風格的視覺效果,新生成器的改進效果看起來近乎完美得過頭了。當我觀看來自 Sora 的那些片段時,感覺對結果的優化嘗試正在步入過度精緻的範疇,看起來如此完美無瑕,最終卻顯得毫無生氣和死氣沉沉。

不自然、令人不安、毫無生氣和死氣沉沉。這正是恐怖谷效應——看着像人,卻又並非完全是人。

無論這些生成器變得多麼好,恐怖谷效應總會一直存在。除非我追求一種抽象且超現實的美學,就像那種只有在夢裡才能見到的,否則我在任何視頻項目中都不會依賴人工智能文本轉視頻生成器。