「文字翻轉影片」成真?抖音推AI生成影片 專家擔憂這現象

「抖音」公開一篇「MagicVideo-V2:多階高美學影片生成」的論文,表示抖音將更進一步讓文本由AI生成影像,一舉實現從文字到影片只需由AI產生的境界。擷自「MagicVideo-V2:多階高美學影片生成」論文內容

無影無真相的時代來了嗎?中國大陸短影音平臺「抖音」近日預先公開一篇「MagicVideo-V2:多階高美學影片生成」的論文,表示抖音即將跨越由文本生成音訊的技術門檻,更進一步讓文本直接由AI生成影像,一舉實現從文字到影片只需由AI產生的境界;但該篇論文讓不少專家學者聞之變色,認爲還需考量AI產製的影片是否有道德上的問題。

「北京字節跳動科技有限公司」近日搶先公開一篇名爲「MagicVideo-V2:多階段高美學影片生成」的論文,由12名陸籍專家掛名,內文揭露未來抖音如何利用文本產製出高品質的影片內容,只要有一段描述文字,AI就能自動轉換成影像,還可以指定各種呈現的風格。

報告中提及的MagicVideo-V2,包括了將文本到圖像模型、影片運動模組、參考圖像嵌入模組及插圖模組4大類,只要套用就像是讓AI自行運用動畫拍攝影片一般,一則影片立即就能生成。該論文還指出,爲了確保影片的保真度和流暢度,MagicVideo-V2還運用了包括伸展臺(Runway)、Pika 1.0(標榜爲想法生影片的平臺)、Morph(變形)、Moon Valley(標榜讓想法動起來的平臺)和穩定視訊擴散(Stable Video Diffusion)模型技術。

但外媒憂心,儘管抖音這項技術爲影片的產生提供了一個嶄新的前景,但AI產製出的內容是否還有道德上的考慮,都值得注意。

報告中提及的MagicVideo-V2,包括將文本到圖像模型、影片運動模組、參考圖像嵌入模組及插圖模組4大類,只要套用就像是讓AI自行運用動畫拍攝影片一般,一則影片立即就能生成。擷自「MagicVideo-V2:多階高美學影片生成」論文內容