或许是最有商业价值的AI,谷歌发布VideoPoet,可从0直接生成视频
作者:時尚 來源:綜合 瀏覽: 【大 中 小】 發布時間:2025-08-02 16:31:16 評論數:
今年無疑是生成式AI最火爆的一年,文字對話有ChatGPT、Gemini等,圖片生成有midjourney、DALL-E等,在這之后不少廠商將目光投入到了生成式AI的最后一個關卡——視頻生成。如今看來,這一領域也出現了突破,那就是這款名為VideoPoet的大語言模型。
據了解,這款名為VideoPoet的大語言模型之所以被認為是從0生成視頻的革命性視頻生成工具,主要就在于它不僅可以以文生視頻、以圖像生成視頻,還能根據需要進行風格遷移也就是將一種風格的視頻轉換到另外一種風格,根據文本指令的提示進行交互式視頻編輯,可能會給視頻剪輯工作帶來非常大的變革。
不僅如此,VideoPoet還能生成音頻,并能通過調節視頻的最后一秒預測并生成之后的一秒,并且能夠通過重復這一過程來生成任意時長的視頻,至于擴展視頻就更不在話下,而這在視頻修復、視頻視頻擴展方面有著非常重要的意義。
更令人眼前一亮的是,為了展示 VideoPoet 的功能,谷歌還制作了一部由 VideoPoet 生成的多個短片組成的小短片。劇本由接入了Gemini的Bard編寫,整體式一個關于關于一只旅行浣熊的短篇故事,并附有逐個場景的分解和附帶的提示列表。然后,谷歌為每個提示生成視頻剪輯,并將所有生成的剪輯拼接在一起以生成下面的最終視頻。
VideoPoet生成視頻的部分截圖
相關研究團隊將VideoPoet與其他視頻生成模型進行了對比,用各種參數來評估VideoPoet在文本生成視頻方面的表現,受訪者認為VideoPoet中約24-35%的示例比競爭模型更好,而競爭模型的這一比例為8-11%。由于VideoPoet生成視頻的動作更有趣,評分者對VideoPoet提供示例41-54%表示了喜歡,而其他模型的這一比例則只有11-21%。
不難看出,VideoPoet不僅性能不錯,還在視頻制作、剪輯、修復等多個方面具有非常實際的作用,或許會成為補全生成式AI的最后一環。
不過如果以后在視頻平臺上看到的都是AI生成的視頻,恐怕還是有點驚悚。