• <li id="00i08"><input id="00i08"></input></li>
  • <sup id="00i08"><tbody id="00i08"></tbody></sup>
    <abbr id="00i08"></abbr>
  • 新聞中心

    EEPW首頁 > 智能計算 > 設計應用 > 從素材引領大模型(如Sora等)生成視頻

    從素材引領大模型(如Sora等)生成視頻

    作者:高煥堂 時間:2024-09-29 來源:EEPW 收藏


    1   前言

    無論是大語言模型(LLM) 或是大視覺模型(LVM)等,大多是從廣闊的互聯網大數據中學習,就俗稱為:野貓或強龍。而一般的企業小模型則局限于企業內部的數據中學習,則俗稱為:家貓或地頭蛇。那么,本期就來展示一項家貓與野貓的協同合作,一同創造更令人驚訝的新視頻(Video。例如,這是Open AI 公司的Sora生成的視頻:

    image.png

    經由我的家貓( 一個GAN 模型),改變其色彩,并與野貓(PixVerse)協同合作。這種家貓與野貓的協同合作,常常創造出無奇不有的AI 生成影視。例如,協同合作生成如下:

    1727590480969415.png

    有時候,野貓可能聽不準人話(Prompts),就可以好好利用家貓去和野貓輕聲細語,野貓就變得細致精準了。這項協同合作模式,也很適合于許多影視企業的IP(Intellectual Property) 增值之路。其中,IP 的價值在于一致的獨創風格,而IP 的增值則在于既能維持一致風格,又能添加各種組合性創新。自從2020 年以來,AI 的組合性創作能力愈來愈高,使得企業IP 增值途徑的成本大幅降低,只需更專注于維護一致的獨有風格。

    為了維護風格,就來尋覓一條< 引領AI 生成> 的有效途徑。就如同烹飪,其最佳的控制手段,即是:掌握素材( 食材)。例如,利用自己訓練的家貓來對素材來進行處理,力求維持其一致風格,然后將處理后的素材和人為的提詞(Prompt) 結合,來引導AI 生成新視頻,于是基于IP 的創作就完成了。

    2   認識LVM:以Sora為例

    目前有許多大視覺模型(Large Vision Model,簡稱:LVM),其中最具盛名的是Open AI 公司的Sora 模型,此外還有PixVerse、Pika 等等。Sora 的主要魅力是,讓人們可以輕松、流暢地制作出引人入勝的視頻,這為影

    視方面的創作開啟了一條風光明媚的新道路。它在ChatGPT 的基礎上,既能用LLM 來理解用戶的提詞(Prompt) 的心意,并產生引人注目的字符來表達充滿活力的情感。然后基於這些元素在物理世界中的存在方式,來實現物理世界的涌現情境。

    1727590539770673.png

    此圖引自:https://aineedful.com/sora-ai-text-tovideo-generator-tool/

    除了透過文字來生成影片之外,在圖像方面,Sora能夠產生具有多個角色、特定類型的運動以及主體和背景的準確細節的復雜場景。因而Sora可以將系列圖像轉換為影片,并能為靜態圖像添加各種動畫效果,來產生動態視角影片,使其人物及場景元素在旋轉的3D 空間里能保持流暢的運動狀態。

    由于它能充分理解人們在提詞文本里所說的各種事物,并知道這些物體是如何存在于現實世界之中,進而創造出讓人驚艷的逼真感受,呈現出其非常棒的真實感。

    1727590642371172.png

    此圖引自:https://openai.com/index/sora/

    Sora 從文字推論出所蘊含的豐富情感和細膩想象力,再通過視覺敘事的方式生動地展現出來,讓人人的想法不受限于語言的邊界,而進入到視覺藝術的逼真情境。從上述可知,Sora 具有兩項很顯著的特色:

    2.1 對語言深入理解

    Sora 利用LLM 來理解和生成與物理世界相關的語言描述。于是它對語言具有深入理解,并準確的詮釋和呈現語言的意圖,它不僅了解人們在提示詞所說的各種物體,還知道這些物體是如何存在于現實世界中,因而讓人們可以輕松、流暢地制作出引人入勝的視頻

    2.2 生成逼真的視頻

    Sora 擅長於處理時間和空間相關的資料,來掌握復雜的時空關系,因而展現了生成高度真實物理世界視頻的能力。因而能夠模擬出一些來自現實世界中人、動物、環境和其他事物,藉由充分理解周圍的世界,來生成非常吸引人的逼真影片。

    3   LVM的典型用法:以PixVerse為例

    您可以使用PixVerse 來生成逼真且具個人獨特風格的影片。并且為你的影片提升豐富度、增加內涵和特效,且保持視覺風格的一致性。還可以將靜態的系列圖片轉換成為完整的影片。

    當你需要 PixVerse 幫你創造出超棒的影片時,請您輸入你希望轉換為影片的文本,然后將其輸入到 PixVerse 的接口中,它將根據你的文本生成影片。PixVerse 的典型用法包含4 個步驟,如下:

    3.1 用戶輸入文本描述

    使用者提供提詞文本(Text) 給 PixVerse ,成為影片生成的起點,提詞包括故事情節和對話內容,以及相關的文本敘述。

    3.2 PixVerse理解文本描述

    接著,PixVerse 藉由LLM來準確地解釋文本和意圖,領會出人們的想法、主題、人物、環境和動作,來產生充滿活力情感的視頻。

    3.3 PixVerse將文本轉換為一系列圖像

    此時,PixVerse 根據其對文本描述的理解和領會,來產生一系列圖像,并生成流暢的視覺元素,包括場景、人物、物體、環境和背景等。然后將所生成的隱藏空間元素映像到人們可觀測的像素空間。

    3.4 PixVerse將圖像序列轉換為影片

    最后,就會生成配音、音效和背景音樂,讓影片更豐富、更呈現出感情,并調整視頻的色彩和亮度,以便讓視頻更和諧流暢。同時,進行動畫處理,增添生動感,然后PixVerse 就將視覺和音效元素結合生成連貫而流暢的創新影片了。

    4   創新模式:家貓與野貓協同合作

    現在就來動手訓練一個自己的GAN(Generative Adversarial Network) 模型,其擔任家貓( 地頭蛇) 的角色。而PixVerse 則扮演野貓( 強龍) 的角色,兩者攜手合作。于是,就貓丁興旺,萬事如意了。

    在本范例里,家貓的任務是:保留素材的底稿,渲染不同顏色。其目的是維持IP 的一致風格( 如線條)。于是,采取GAN 模型,并使用CIELAB 色彩空間(即L*ab)來進行訓練。于是,這GAN 模型在幫忙處理素材時,就會保留素材的底稿,并依據其所學習的色彩風格來對素材進行渲染,而改變素材的顏色。

    一旦訓練好了家貓,它就能夠負責處理素材的工作。一旦素材處理好了,就能把素材輸入給野貓來生成流暢而逼真的視頻了。這項創新模式的步驟如下:

    4.1 準備家貓的訓練數據

    首先準備訓練數據來讓家貓( 即GAN) 模型學習。例如建立一個/ox_dd/mp4/ 活頁夾,內含一個swd.mp4短視頻:

    image.png

    接下來,使用網絡上的工具,將swd.mp4 影片里切分出一序列的圖像(frames 或images),并且把這些圖像存放在/ox_dd/swd_frames/ 里。每一張都是128×128格式的*.png 圖像。總共準備好了60 張圖像( 或稱frames),如下:

    于是,就可以拿它們來訓練這個家貓了。家貓就學習了這些訓練數據中的色彩風格,但維持既有的底圖線條不變。

    1727590900210807.png

    4.2 開始訓練家貓

    此時,就可以拿上述的60 張圖像來訓練家貓。訓練100 回合完成時,也匯出GAN_G_100.pt 檔案。

    4.3 由家貓來處理素材

    1)收集素材

    本范例擷取Sora 生成的經典影片,儲存為sora_dance.mp4,如下:

    image.png

    接下來,使用網絡上的工具,將這sora_dance.mp4視頻切分出一序列的圖像(frames),并且把這些圖像存放在/ox_dd/image_seq/ 里。每一張都是128×128 格式的*.png 圖像。總共切分出25 張圖像(frames),如下:

    image.png

    這就把素材收集好了。但并不是直接把它們輸入給野貓,而是先由家貓來進行< 素材預處理>,然后才輸入給野貓。

    2)家貓開始處理素材

    此時,就加載家貓模型( 即GAN_G_100.pt 檔案),并讀取素材( 在/image_seq/ 里),進行預處理( 色彩轉換)。然后將轉換出來的新素材,儲存于這個/gen_seq/新活頁夾里。于是轉換出25 個素材圖像了,如下:

    image.png

    這就把素材預處理完成了。

    4.4 把素材喂給野貓,由野貓生成新視頻

    剛才已經由家貓來進行< 素材預處理> 好了。并且儲存于這個/gen_seq/ 新活頁夾里。接下來,就可以輸入給野貓( 即強龍)。本范例的野貓是著名的PixVerseAI 影片生成軟件, 其網址是:https://app.pixverse.ai/create/video/image。

    進入這個網頁之后,請點擊<Upload image>,然后把/gen_ seq/ 里的25 個images 拉進畫面里,并按下<Create Video>,就開始生成新視頻了。可以點擊它,播放如下:

    1727616377801768.png

    1727616400985701.png

    1727616426167776.png

    1727616445551777.png

    這就順利生成新視頻了。

    5 結束語

    本文展示企業AI 模型( 家貓) 在影視和游戲產業中的應用,它能與( 野貓) 協同合作,來生成高度逼真的視覺內容,有效地提升了影視作品和游戲的真實感和沉浸感。此外,也有助于降低傳統視覺效果制作的成本和時間,并支持創新的內容創作。例如,家貓與野貓攜手合作來讓企業影視IP 大大增值。

    (本文來源于《EEPW》


    評論


    相關推薦

    技術專區

    關閉
    主站蜘蛛池模板: 莒南县| 保亭| 宣化县| 鄂伦春自治旗| 都匀市| 侯马市| 清丰县| 洱源县| 九江县| 都匀市| 定安县| 永济市| 明光市| 蒙城县| 罗源县| 普兰县| 梧州市| 扎鲁特旗| 北川| 昌邑市| 务川| 杭锦后旗| 醴陵市| 五台县| 永新县| 汉沽区| 通辽市| 华蓥市| 郴州市| 株洲市| 南雄市| 理塘县| 泉州市| 河津市| 子长县| 郸城县| 临漳县| 钟祥市| 遵义市| 永年县| 阿拉善左旗|