隨著技術(shù)的不斷進(jìn)步,人工智能(AI)已經(jīng)開(kāi)始在視頻制作領(lǐng)域扮演越來(lái)越關(guān)鍵的角色。小鵬汽車(chē)的AI研究團(tuán)隊(duì)近日推出的“任意物體于任意場(chǎng)景”(Anything in Any Scene)技術(shù)引發(fā)了業(yè)界廣泛關(guān)注。該技術(shù)通過(guò)先進(jìn)的生成式人工智能(AiGC)算法,能夠?qū)⑷我馕矬w無(wú)縫集成進(jìn)動(dòng)態(tài)視頻中,創(chuàng)造出極致真實(shí)的視覺(jué)效果。參與該項(xiàng)研發(fā)工作的小鵬汽車(chē)AI研究員Xiaoyin Zheng先生深入解讀了該技術(shù)及其背后的愿景與初衷。
“利用我們研發(fā)的Anything in Any Scene技術(shù),用戶(hù)能在任意的視頻場(chǎng)景中,插入任意物品,并且達(dá)到以假亂真的程度”。為證實(shí)所言非虛,Xiaoyin Zheng展示了應(yīng)用此技術(shù)制作的視頻,并邀請(qǐng)記者嘗試識(shí)別其中后期插入的物體。場(chǎng)景包括室外道路、夜間道路和室內(nèi)場(chǎng)景。記者經(jīng)多次觀(guān)看后,也難以辨識(shí)異樣,直至Xiaoyin Zheng揭示紅綠燈、垃圾桶和頭盔等物體竟然均為后期插入。
Xiaoyin Zheng隨后介紹了這項(xiàng)技術(shù)的架構(gòu)細(xì)節(jié)。“相比以往的算法框架,例如DoveNet、PHDiffusion,Anything in Any Scene呈現(xiàn)的效果更加逼真,這得益于我們架構(gòu)中的三個(gè)主要模塊,分別保證了物體擺放位置的真實(shí)性,光照的真實(shí)性,和色調(diào)的真實(shí)性。在確保物體在視頻中正確放置的過(guò)程里,我們的技術(shù)框架首先確定相機(jī)在視頻中的世界坐標(biāo)系位置,將其作為插入物體的基準(zhǔn)點(diǎn)。接著,通過(guò)分析相機(jī)的內(nèi)參和方位,精確計(jì)算出物體三維模型在各個(gè)視頻幀里的具體位置。我們還使用了語(yǔ)義分割模型預(yù)測(cè)物體的掩碼,避免插入物體被其他物體遮擋。為了使物體在視頻中保持穩(wěn)定,我們會(huì)預(yù)測(cè)視頻連續(xù)幀之間的光流來(lái)跟蹤物體的運(yùn)動(dòng)軌跡,并減少物體在連續(xù)幀上的投影差異,從而實(shí)現(xiàn)物體隨著攝影角度變化時(shí)的平滑移動(dòng)。為了保證物體光照的真實(shí)性,我們還會(huì)根據(jù)視頻流中的天空部分畫(huà)面,推理出主光源的高光和環(huán)境光漫反射這兩種光源的HDR分布,并將此HDR分布送給渲染管線(xiàn)中,這樣就可以連同物體的陰影一并渲染出來(lái),生成逼真的光照效果。最后,我們會(huì)對(duì)物體做一個(gè)style transfer(風(fēng)格變換),使其更逼近目標(biāo)視頻流的整體色調(diào),進(jìn)一步提高整個(gè)視頻的逼真程度?!?/span>
對(duì)于外界關(guān)于“任意物體于任意場(chǎng)景”技術(shù)是否僅用于制作虛假視頻的質(zhì)疑,Xiaoyin Zheng給出了詳細(xì)的回答。他解釋說(shuō):“我們開(kāi)發(fā)這項(xiàng)技術(shù)的初衷,實(shí)際上是為了在數(shù)據(jù)層面,促進(jìn)自動(dòng)駕駛技術(shù)的發(fā)展。在自動(dòng)駕駛系統(tǒng)的訓(xùn)練階段,通常需要收集大量的實(shí)際駕駛數(shù)據(jù)。然而,某些罕見(jiàn)但重要的情形,如道路上的事故車(chē)輛、特種車(chē)輛、障礙物、行人意外穿越等,往往難以在日常環(huán)境中收集到足夠的數(shù)據(jù)樣本。若能通過(guò)AiGC技術(shù)創(chuàng)造出極為逼真的場(chǎng)景數(shù)據(jù),就能夠以極為低廉的成本,為自動(dòng)駕駛系統(tǒng)提供持續(xù)的、高質(zhì)量的訓(xùn)練‘養(yǎng)料’?!彼M(jìn)一步闡釋?zhuān)叭欢@項(xiàng)技術(shù)的應(yīng)用遠(yuǎn)不止于此。正如其名稱(chēng)‘任意物體于任意場(chǎng)景’所暗示的,它賦予了用戶(hù)在任何視頻場(chǎng)景中插入任何物體的能力,這極大地拓展了視頻編輯的可能性。無(wú)論是在AI視頻創(chuàng)作領(lǐng)域,還是在增強(qiáng)現(xiàn)實(shí)(AR)與虛擬現(xiàn)實(shí)(VR)等新興領(lǐng)域,這項(xiàng)技術(shù)都有著廣闊的應(yīng)用前景?!?/p>
在討論Anything in Any Scene與近期大火的OpenAI SORA之間的關(guān)系時(shí),Xiaoyin Zheng認(rèn)為,這兩種技術(shù)互相補(bǔ)充而非直接競(jìng)爭(zhēng)。他指出,在視頻創(chuàng)作過(guò)程中,SORA和‘任意物體于任意場(chǎng)景’技術(shù)都將是重要的工具?!叭绻乙獜念^開(kāi)始利用AI創(chuàng)造一段視頻,我會(huì)首先用SORA來(lái)構(gòu)建整個(gè)場(chǎng)景,接著使用‘任意物體于任意場(chǎng)景’對(duì)視頻中對(duì)物體細(xì)節(jié)有高精度要求的部分進(jìn)行細(xì)致編輯。通常情況下,SORA負(fù)責(zé)將視頻創(chuàng)作從0到90%,而‘任意物體于任意場(chǎng)景’負(fù)責(zé)完成剩下的,也是極具難度的10%。有了Anything in Any Scene,使用SORA的創(chuàng)作者可以說(shuō)是錦上添花,將創(chuàng)作提升到全新的高度?!?/p>
展望未來(lái),隨著技術(shù)的持續(xù)發(fā)展和完善,Anything in Any Thing與SORA等先進(jìn)AI工具的結(jié)合使用,將不僅為視頻創(chuàng)作帶來(lái)革命性的變革,同時(shí)也將在自動(dòng)駕駛、虛擬現(xiàn)實(shí)等多個(gè)領(lǐng)域開(kāi)拓出更廣闊的應(yīng)用空間。這些技術(shù)的發(fā)展和應(yīng)用,預(yù)示著我們正邁向一個(gè)更加智能、更加多元的新時(shí)代。人工智能的邊界將不斷被拓展,創(chuàng)新的火花在不同領(lǐng)域間碰撞,引領(lǐng)我們走向更加精彩的未來(lái)。