雪鹰领主,怎样写网络小说

文生視頻大模型Sora誕生半年后，它的中國“挑戰(zhàn)者”列隊(duì)登場，爭奪下一張AI殺手級應(yīng)用的“船票”。過去一個月，4款國產(chǎn)視頻生成模型陸續(xù)上線、走向大眾。

與Sora僅釋放小樣、未開放使用不同，中國的視頻生成大模型發(fā)布即上線，便于使用者“拿來就用”。眼下，在應(yīng)用端，一批內(nèi)容創(chuàng)作者已初嘗“會打字就會生視頻”“生視頻不求人”的樂趣；在技術(shù)側(cè)，還有一批孵化中的視頻生成模型正在路上。盡管國產(chǎn)工具還不具備一次性“分鐘級”的生成能力、無法實(shí)現(xiàn)比肩實(shí)拍的“無縫”“絲滑”，但視頻生成已解決了“有”的問題，逐步向“優(yōu)”進(jìn)化。

想象力“動”起來

最近，文生視頻賽道擠滿了強(qiáng)有力的中國選手。7月下旬，我國人工智能獨(dú)角獸智譜AI推出視頻生成模型“清影”、愛詩科技發(fā)布視頻生成產(chǎn)品PixVerse V2、生數(shù)科技上線視頻生成模型Vidu的同時，快手6月發(fā)布的“可靈AI”已積累百萬用戶。

Sora的中國“挑戰(zhàn)者”有何本領(lǐng)？

進(jìn)入“奧運(yùn)時間”，不少刷屏朋友圈的、可銜接不同場景和運(yùn)鏡的短片，也同樣出自國產(chǎn)視頻生成大模型之手。

“視頻生成，簡言之是通過生成式AI技術(shù)，將文本、圖片等多模態(tài)輸入，轉(zhuǎn)化為視頻信號。”快手視覺生成和互動中心負(fù)責(zé)人萬鵬飛說，“與過去我們常見的相機(jī)拍攝、圖形渲染獲得視頻的方式不同，視頻生成的本質(zhì)是從目標(biāo)分布中采樣計算得到像素。這種方式能以更低的成本，達(dá)到更高的內(nèi)容自由度。”

進(jìn)入Vidu的視頻生成頁面，記者體驗(yàn)了“一鍵生成”的自由。上傳一張照片設(shè)置為“起始幀”或作為“參考的人物角色”，在對話框里輸入想要生成場景的文字描繪，點(diǎn)擊“生成”鍵，一條栩栩如生的短視頻就自動生成了。從進(jìn)入頁面到下載完畢，不足1分鐘。

一名技術(shù)負(fù)責(zé)人告訴記者一個“生成秘籍”：“試試‘鏡頭語言+建立場景+細(xì)節(jié)描述’的提示詞公式，不出5次就能獲得想要的視頻內(nèi)容。”

視頻生成技術(shù)的快速迭代，建立在對生成內(nèi)容效果的精準(zhǔn)評價之上。如何區(qū)分視頻生成模型性能的優(yōu)劣？“一看可控性，即生成內(nèi)容與輸入文本的對應(yīng)程度；二看穩(wěn)定性、一致性；三看合理性，即生成內(nèi)容是否合乎物理規(guī)律；四看風(fēng)格、審美、創(chuàng)意；最后一點(diǎn)，看生成的實(shí)時性。”香港大學(xué)計算機(jī)系教授、歐洲科學(xué)院外籍院士徐東這樣歸納。

成本降下去速度提上來

國外網(wǎng)友已經(jīng)用行動表達(dá)了對中國自研視頻生成模型的贊許，不少Twitter賬號發(fā)布的文字已經(jīng)配上了可靈AI、清影AI生成的視頻。

“坦白說，現(xiàn)在技術(shù)還沒有到成熟的階段，視頻生成模型的技術(shù)天花板高，可以提升的空間大。但是，我們看到了影視、動畫、廣告、游戲行業(yè)的痛點(diǎn)：制作周期長、制作成本高，而這是技術(shù)可以努力解決的。”生數(shù)科技聯(lián)合創(chuàng)始人、首席執(zhí)行官唐家渝告訴記者。

一項(xiàng)技術(shù)想要成為“剛需”，須在增強(qiáng)可用性、可控性的前提下降低成本。作為直接拉低創(chuàng)作與制作門檻的技術(shù)，視頻生成模型的出現(xiàn)，讓影視動畫從業(yè)者看到了“小團(tuán)隊(duì)制作動畫”“小成本內(nèi)容創(chuàng)作”的春天。

然而，更低的成本、更高的效率，已讓傳統(tǒng)的影視、動畫、游戲從業(yè)者感受到技術(shù)顛覆前夜的凜冽。“‘人人成為設(shè)計師’‘人人成為導(dǎo)演’的時代將會到來，就像當(dāng)年進(jìn)入‘人人擁有麥克風(fēng)’的時代。”智譜AI首席執(zhí)行官張鵬說。

技術(shù)固然帶來了性價比更高的工具，但也凸顯了創(chuàng)意的關(guān)鍵作用。“當(dāng)影視、動畫、游戲的制作環(huán)節(jié)投入占比大幅降低后，比拼的就更加是創(chuàng)意。”陳劉芳說。

“煉”一個殺手級應(yīng)用

大語言模型敲開生成式AI的大門后，視頻作為圖像模態(tài)的再擴(kuò)展，將AIGC的技術(shù)推向高潮，也讓AIGC的應(yīng)用離大眾越來越近。

當(dāng)前，全球視頻生成的技術(shù)路線主要有兩種：一種是擴(kuò)散模型，這其中又分為兩類，一類是基于卷積神經(jīng)網(wǎng)絡(luò)的擴(kuò)散模型，如Meta的Emu Video、騰訊等推出的VideoCrafter；另一類是基于Transformer架構(gòu)的擴(kuò)散模型，如生數(shù)科技的Vidu、OpenAI的Sora、快手的可靈AI等。第二種是自回歸路線，如谷歌的VideoPoet、Phenaki等。

“國內(nèi)視頻生成的主流選擇是基于Transformer架構(gòu)的擴(kuò)散模型，這一架構(gòu)能使模型在處理語言、計算機(jī)視覺、圖像生成等領(lǐng)域表現(xiàn)出擴(kuò)展能力，遵從‘規(guī)模定律’。”徐東說。

這一選擇也意味著，更大的算力、更高的質(zhì)量與更大規(guī)模的數(shù)據(jù)，以及復(fù)雜的算法。

“首先的是算法。視頻在圖像的基礎(chǔ)上增加了時間維度，算法的復(fù)雜程度會指數(shù)級增長。”徐東說，數(shù)據(jù)、算力一定的條件下，模型性能關(guān)鍵在于算法的能力，取決于算法人才水平的高低。

其次，最為缺乏的是數(shù)據(jù)。“視頻生成強(qiáng)依賴于數(shù)據(jù)。與文本數(shù)據(jù)相比，視頻數(shù)據(jù)的積累難度更大。數(shù)據(jù)的質(zhì)量提升，不僅包括視頻的解析度、風(fēng)格、分鏡、組合、連續(xù)性等，還包括數(shù)據(jù)的清洗、篩選、處理。”張鵬說。

視頻生成模型更是“吞卡巨獸”。從Sora的實(shí)踐來看，持續(xù)提高模型的數(shù)據(jù)量、參數(shù)規(guī)模，迄今依然是AIGC進(jìn)化的核心。中信證券測算，一個60幀的視頻（約6至8秒）大約需要6萬個Patches（補(bǔ)片），如果去噪步數(shù)是20的話，相當(dāng)于生成120萬個Tokens（詞元）。考慮到擴(kuò)散模型在實(shí)際使用中需多次生成，實(shí)際計算量會遠(yuǎn)超120萬個Tokens（詞元）。

“大模型參數(shù)正以每年十倍的速度增長。不論對科技企業(yè)還是研究機(jī)構(gòu)而言，如何持續(xù)訓(xùn)練高性能的模型，依然是巨大挑戰(zhàn)。但與此同時，C端的‘殺手級應(yīng)用’讓人充滿期待。從創(chuàng)意的生成，到圖片、音樂、視頻的制作，AI都將有大施拳腳之地。未來，視頻制作也許就像今天做PPT一樣簡單便捷。”北京智源人工智能研究院院長王仲遠(yuǎn)說。

田鑫，專業(yè)的企業(yè)組網(wǎng)服務(wù)商，致力于為企業(yè)提供企業(yè)組網(wǎng)（SD-WAN、MPLS、云互聯(lián)）、數(shù)據(jù)中心、網(wǎng)絡(luò)安全、系統(tǒng)集成服務(wù)、ICT解決方案、行業(yè)IT解決方案等相關(guān)服務(wù)。

更多相關(guān)內(nèi)容推薦：
智算需求與技術(shù)革新
 2024中國綠色算力（人工智能）大會新聞發(fā)布會在呼和浩特召開
 數(shù)能共振綠算領(lǐng)航，數(shù)據(jù)中心全生命周期綠色算力指數(shù)論壇在京舉行
 合盈數(shù)據(jù)楊惜琳：算電互鎖為新質(zhì)生產(chǎn)力筑基
 當(dāng)我們談綠色算力時，我們談些什么？
2024中國綠色算力（人工智能）大會：和林格爾數(shù)據(jù)中心集群的崛起與展望
 北京加快邁向人工智能之城
城地香江攜手華為，共啟人工智能算力新篇章
 提高人工智能時代口述史研究水平
 AI大模型最火應(yīng)用場景？1個月11個融資項(xiàng)目
 未來五年，中國AI大模型最有潛力的5大場景

上一篇:不僅僅是能源的消耗者——數(shù)據(jù)中心的雙重身份下一篇:鼓勵制造業(yè)“智改數(shù)轉(zhuǎn)網(wǎng)聯(lián)”

從“無到有”走向“有到優(yōu)” 國產(chǎn)視頻生成大模型漸入佳境

熱門文章

TikTok本土運(yùn)營如何拉國際專線

智算中心可再生能源利用

云專線的作用是什么？云專線的特點(diǎn)優(yōu)勢

數(shù)字賦能基層治理

開通國際網(wǎng)絡(luò)怎么操作，國際網(wǎng)絡(luò)怎么辦理？