訂閱
糾錯
加入自媒體

24FPS實時生成!騰訊混元推出WorldPlay:打破“速度與記憶”悖論,720P無限流視頻隨意玩!

作者:Wenqiang Sun等

解讀:AI生成未來

亮點直擊

WorldPlay,一個針對通用場景的實時、長期一致的世界模型。

雙重動作表示:提出了一種結(jié)合離散鍵盤輸入和連續(xù)攝像機姿態(tài)的雙重動作表示方法。既實現(xiàn)了對用戶輸入的魯棒控制,又提供了精確的空間位置信息,解決了傳統(tǒng)方法在控制精度和訓(xùn)練穩(wěn)定性上的不足。

建上下文記憶和時間重構(gòu):為了解決長期幾何一致性的挑戰(zhàn),WorldPlay 引入了重建上下文記憶機制,它動態(tài)地從歷史幀中重建上下文。

上下文強制:一種新穎的蒸餾方法,旨在解決內(nèi)存感知模型在實時生成中常見的誤差累積和分布不匹配問題。確保了蒸餾過程的有效性,使得學(xué)生模型在保持實時速度的同時,能夠有效利用長程信息并防止誤差漂移。

這些創(chuàng)新共同使得 WorldPlay 能夠?qū)崿F(xiàn)實時、交互式的視頻生成,并在長期生成過程中保持卓越的幾何一致性。

總結(jié)速覽

解決的問題

WorldPlay 旨在解決當(dāng)前實時交互式世界模型中的一個根本性挑戰(zhàn):如何在兼顧實時生成速度的同時,保持長期幾何一致性,F(xiàn)有的方法往往難以同時實現(xiàn)這兩點,例如,一些方法為了追求速度而犧牲了在場景重訪時的一致性,而另一些方法雖然能保持一致性,但由于復(fù)雜的內(nèi)存機制而無法實現(xiàn)實時交互。此外,傳統(tǒng)的位置編碼在處理長序列時可能導(dǎo)致長程信息衰減和外推偽影,進一步加劇了幾何一致性的挑戰(zhàn)。

提出的方案

WorldPlay 提出了一個流式視頻擴散模型,通過自回歸預(yù)測未來的視頻幀或塊,以響應(yīng)用戶輸入。其核心方案是利用三項關(guān)鍵創(chuàng)新來解決速度與一致性的權(quán)衡問題,確保模型在實時交互中保持長期幾何連貫性。

應(yīng)用的技術(shù)

雙重動作表示 (Dual Action Representation) :結(jié)合了離散按鍵輸入(提供魯棒、適應(yīng)尺度的運動)和連續(xù)攝像機姿態(tài)(提供精確空間位置以進行記憶檢索),解決了各自方法的局限性。

重建上下文記憶 (Reconstituted Context Memory):通過兩階段過程動態(tài)重建記憶上下文,包括捕獲短期運動的時間記憶和防止長期幾何漂移的空間記憶,后者采樣自非相鄰的過去幀,并由幾何相關(guān)性分?jǐn)?shù)指導(dǎo)。

時間重構(gòu) (Temporal Reframing) :針對 RoPE 中遠距離 token 影響減弱的問題,該技術(shù)動態(tài)地為所有上下文幀重新分配位置編碼,使其與當(dāng)前幀保持固定的、小的相對距離,從而使幾何重要的過去幀保持影響力。

上下文強制 (Context Forcing) :一種專為內(nèi)存感知模型設(shè)計的蒸餾方法。它通過在蒸餾過程中對齊教師模型和學(xué)生模型之間的記憶上下文,解決了因分布不匹配導(dǎo)致的性能下降,使得學(xué)生模型能在少量步去噪下實現(xiàn)實時生成,同時保持長期記憶并緩解誤差累積。

分塊自回歸生成:將全序列視頻擴散模型微調(diào)為分塊自回歸模型,以實現(xiàn)無限長交互式生成。

達到的效果

實時交互性:能夠以24 FPS 的速度生成 720p 的流式視頻,實現(xiàn)低延遲的交互式體驗。

卓越的長期幾何一致性:在用戶控制和場景重訪時,模型能保持場景的連貫性和穩(wěn)定性,解決了以往模型中常見的幾何不一致問題。

強大的泛化能力:在多樣化的真實世界和風(fēng)格化世界場景中展現(xiàn)出顯著的泛化能力,無論是第一人稱還是第三人稱視角。

多功能應(yīng)用支持:支持3D重建、文本驅(qū)動的動態(tài)世界事件觸發(fā)(可提示事件)以及視頻續(xù)寫等多種應(yīng)用。

解決了誤差累積問題:通過上下文強制等機制,有效緩解了自回歸模型在長序列生成中常見的誤差累積問題。

方法

本文的目標(biāo)是構(gòu)建一個幾何一致且實時的交互式世界模型 ,其參數(shù)為,能夠根據(jù)過去的觀察 、動作序列  和當(dāng)前動作  生成下一個塊 (一個塊包含幾幀)。其中  是描述世界的文本提示或圖像。為簡化表示,后續(xù)章節(jié)將省略 。本文首先介紹相關(guān)預(yù)備知識。然后本文討論用于控制的動作表示。隨后描述了本文的重建上下文記憶以確保長期幾何一致性,隨后介紹了本文的上下文強制,它緩解了曝光偏差并實現(xiàn)了少量步生成,同時保持了長期一致性。最后,詳細介紹了用于實時流式生成的額外優(yōu)化。其流程如下圖2所示。

用于控制的雙重動作表示

現(xiàn)有方法使用鍵盤和鼠標(biāo)輸入作為動作信號,并通過MLP或注意力塊注入動作控制。這使得模型能夠?qū)W習(xí)跨不同尺度場景(例如非常大和非常小的場景)的物理上合理的運動。然而,它們難以提供精確的先前位置以進行空間記憶檢索。相比之下,攝像機姿態(tài)(旋轉(zhuǎn)矩陣和轉(zhuǎn)換向量)提供了精確的空間位置,有助于精確控制和記憶檢索,但僅使用攝像機姿態(tài)進行訓(xùn)練由于訓(xùn)練數(shù)據(jù)中的尺度差異而面臨訓(xùn)練穩(wěn)定性的挑戰(zhàn)。為了解決這個問題,本文提出了如下圖3所示的雙重動作表示,它結(jié)合了兩者的優(yōu)點。

這種設(shè)計不僅為記憶模塊緩存了空間位置,而且實現(xiàn)了魯棒和精確的控制。具體來說,本文采用PE和零初始化MLP來編碼離散按鍵,并將其并入時間步嵌入中,然后用于調(diào)制DiT塊。對于連續(xù)攝像機姿態(tài),本文利用相對位置編碼,即PRoPE,它比常用的光線圖具有更大的泛化能力,將完整的攝像機視錐體注入到自注意力塊中。原始自注意力計算如公式(2)所示:

其中  代表視頻潛變量的3D旋轉(zhuǎn)PE (RoPE)。為了編碼攝像機之間的視錐體關(guān)系,本文利用一個額外的注意力計算,如公式(3)所示:

此處, 是根據(jù)攝像機的內(nèi)參和外參導(dǎo)出的,如論文 [33] 中所述。最后,每個自注意力塊的結(jié)果是 。

用于一致性的重建上下文記憶

保持長期幾何一致性需要回憶過去的幀,確保在重新訪問先前位置時內(nèi)容保持不變。然而,天真地使用所有過去的幀作為上下文(如下圖4a所示)對于長序列來說在計算上是不可行的且冗余的。為了解決這個問題,本文為每個新塊  從過去的塊  重建記憶上下文 。本文的方法通過結(jié)合短期時間線索和長程空間參考,超越了先前的工作,如[67, 74]:

時間記憶 () 包含最近的  個塊 ,以確保短期運動平滑。

空間記憶 () 從非相鄰的過去幀中采樣,以防止長序列上的幾何漂移,其中 。此采樣由結(jié)合了視場重疊和攝像機距離的幾何相關(guān)性分?jǐn)?shù)指導(dǎo)。

一旦記憶上下文被重建,挑戰(zhàn)就轉(zhuǎn)移到如何應(yīng)用它們來強制一致性。有效使用檢索到的上下文需要克服位置編碼中的一個根本缺陷。使用標(biāo)準(zhǔn)RoPE(如上圖4b所示),當(dāng)前塊與過去記憶之間的距離隨時間無限增長。這種不斷增長的相對距離最終可能超過RoPE中訓(xùn)練的插值范圍,導(dǎo)致外推偽影。更關(guān)鍵的是,對這些早已過去的空間記憶的感知距離不斷增長會削弱它們對當(dāng)前預(yù)測的影響。為了解決這個問題,本文提出了時間重構(gòu)(如上圖4c所示)。本文放棄了絕對時間索引,并動態(tài)地為所有上下文幀重新分配新的位置編碼,建立與當(dāng)前幀固定的、小的相對距離,無論它們實際的時間間隔如何。這種操作有效地將重要的過去幀在時間上“拉近”,確保它們保持影響力,并實現(xiàn)魯棒的外推以實現(xiàn)長期一致性。

上下文強制

自回歸模型在長視頻生成過程中常常遭受誤差累積,導(dǎo)致視覺質(zhì)量隨時間下降。此外,擴散模型的多步去噪對于實時交互來說太慢了。最近的方法,如[8, 21, 43, 68] 通過將強大的雙向教師擴散模型蒸餾成快速、少量步的自回歸學(xué)生模型來解決這些挑戰(zhàn)。這些技術(shù)強制學(xué)生模型的輸出分布  與教師模型對齊,從而通過使用分布匹配損失改進生成質(zhì)量,如公式(4)所示:

其中,反向KL的梯度可以通過從教師模型導(dǎo)出的分?jǐn)?shù)差來近似。

然而,這些方法與內(nèi)存感知模型不兼容,因為存在一個關(guān)鍵的分布不匹配。標(biāo)準(zhǔn)教師擴散模型在短片段上進行訓(xùn)練,本質(zhì)上是無記憶的。即使教師模型增加了記憶,其雙向性也必然不同于學(xué)生模型的因果自回歸過程。這意味著,如果沒有精心設(shè)計的內(nèi)存上下文來彌合這個差距,內(nèi)存上下文的差異將導(dǎo)致它們的條件分布  失調(diào),進而導(dǎo)致分布匹配失敗。

因此,本文提出了如上圖5所示的上下文強制,它緩解了教師模型和學(xué)生模型在蒸餾過程中記憶上下文的失調(diào)。對于學(xué)生模型,本文在記憶上下文  的條件下,自我回滾(self-rollout)4個塊。

為了構(gòu)建教師模型 ,本文用記憶增強了一個標(biāo)準(zhǔn)雙向擴散模型,并通過從學(xué)生模型的記憶上下文掩碼  來構(gòu)建其上下文,如公式(5)所示:

其中  表示對應(yīng)于學(xué)生模型的自我回滾  的所有上下文記憶塊。通過將記憶上下文與學(xué)生模型對齊,本文強制教師模型表示的分布盡可能接近學(xué)生模型,從而實現(xiàn)更有效的分布匹配。此外,這避免了在長視頻和冗余上下文上訓(xùn)練 ,從而促進了長期視覺分布的學(xué)習(xí)。通過上下文強制,本文在4步去噪的情況下,實現(xiàn)了實時生成中的長期一致性,并緩解了誤差累積。

具有實時延遲的流式生成

本文通過一系列優(yōu)化增強了上下文強制,以最小化延遲,在8個H800 GPU上實現(xiàn)了24 FPS、720p分辨率的交互式流媒體體驗。

DiT和VAE的混合并行方法。 與復(fù)制整個模型或在時間維度上適應(yīng)序列并行性的傳統(tǒng)并行方法不同,本文的并行方法結(jié)合了序列并行性和注意力并行性,將每個完整塊的 token 分配到不同的設(shè)備上。這種設(shè)計確保了生成每個塊的計算工作負載均勻分布,顯著減少了每個塊的推理時間,同時保持了生成質(zhì)量。

流式部署和漸進式解碼。 為了最小化首幀時間并實現(xiàn)無縫交互,本文采用NVIDIA Triton Inference Framework的流式部署架構(gòu),并實現(xiàn)了漸進式多步VAE解碼策略,以更小的批次解碼和流式傳輸幀。在從DiT生成潛在表示后,幀會逐步解碼,允許用戶在后續(xù)幀仍在處理時觀察生成的內(nèi)容。這種流式管道確保了即使在不同的計算負載下也能實現(xiàn)平滑、低延遲的交互。

量化和高效注意力。 此外,本文采用了全面的量化策略。具體來說,本文采用了Sage Attention、浮點量化和矩陣乘法量化來提高推理性能。此外,本文還使用KV-cache機制用于注意力模塊,以消除自回歸生成過程中的冗余計算。

實驗

本文將WorldPlay模型在一個大規(guī)模、多樣化的數(shù)據(jù)集上進行了訓(xùn)練,該數(shù)據(jù)集包含約320K高質(zhì)量視頻樣本,這些樣本來源于真實世界錄像和合成環(huán)境。數(shù)據(jù)集包括真實世界動態(tài)、真實世界3D場景(DL3DV)、合成3D場景(UE渲染)和模擬動態(tài)(游戲視頻錄制),并且經(jīng)過精心篩選和處理,以確保動作標(biāo)注的準(zhǔn)確性和訓(xùn)練的穩(wěn)定性。數(shù)據(jù)集中的攝像機軌跡如下圖10所示,具有復(fù)雜多樣的特點,包括大量重訪軌跡,這有助于模型學(xué)習(xí)精確的動作控制和長期幾何一致性。

評估協(xié)議:

測試集: 600個測試案例,來源于DL3DV、游戲視頻和AI生成圖像,涵蓋多種風(fēng)格。短期設(shè)置: 使用測試視頻中的攝像機軌跡作為輸入姿態(tài)。生成的視頻幀直接與真實(Ground-Truth, GT)幀進行比較,以評估視覺質(zhì)量和攝像機姿態(tài)準(zhǔn)確性。長期設(shè)置: 使用各種自定義循環(huán)攝像機軌跡來測試長期一致性,這些軌跡旨在強制重訪。每個模型沿著自定義軌跡生成幀,然后沿著相同的路徑返回,通過比較返回路徑上的生成幀與初始通過期間生成的對應(yīng)幀來評估指標(biāo)。評估指標(biāo): LPIPS、PSNR、SSIM用于衡量視覺質(zhì)量; 和  用于量化動作準(zhǔn)確性。

基線方法:

無記憶動作控制擴散模型: CameraCtrl [16]、SEVA [80]、ViewCrafter [77]、Matrix-Game 2.0 [17] 和 GameCraft [31]。有記憶動作控制擴散模型: Gen3C [52] 和 VMem [32]。

主要結(jié)果:

定量結(jié)果:如下表2所示,在短期方案中,WorldPlay在視覺保真度上表現(xiàn)出色,并保持了有競爭力的控制精度。在更具挑戰(zhàn)性的長期方案中,WorldPlay仍然更穩(wěn)定并取得了最佳性能。在長期幾何一致性方面,Matrix-Game-2.0 [17] 和 GameCraft [31] 由于缺乏記憶機制而表現(xiàn)不佳。盡管VMem [32] 和 Gen3C [52] 采用顯式3D緩存來保持一致性,但它們受深度精度和對齊的限制,難以實現(xiàn)魯棒的長期一致性。受益于重建上下文記憶,WorldPlay實現(xiàn)了改進的長期一致性。此外,通過上下文強制,WorldPlay進一步防止了誤差累積,從而獲得了更好的視覺質(zhì)量和動作準(zhǔn)確性。

定性結(jié)果:如下圖6所示,WorldPlay在長期一致性和視覺質(zhì)量方面取得了最先進的成果,涵蓋了第一人稱和第三人稱的真實和風(fēng)格化世界等多種場景。Gen3C中使用的顯式3D緩存對中間輸出的質(zhì)量高度敏感,并受深度估計精度的限制。相比之下,WorldPlay的重建上下文記憶通過更魯棒的隱式先驗保證了長期一致性,實現(xiàn)了卓越的場景泛化能力。Matrix-Game-2.0和 GameCraft由于缺乏記憶而無法支持自由探索。此外,它們在第三人稱場景中泛化能力不佳,使得在場景中控制智能體變得困難,限制了其適用性。相反,WorldPlay成功地將其效能擴展到這些場景,并保持了高視覺保真度和長期幾何一致性。

消融實驗:

動作表示:如下表3所示,驗證了所提出的雙重動作表示的有效性。僅使用離散按鍵作為動作信號,模型難以實現(xiàn)精細控制,導(dǎo)致  和  指標(biāo)性能不佳。使用連續(xù)攝像機姿態(tài)雖然結(jié)果更好,但由于尺度差異,收斂更困難。通過采用雙重動作表示,本文實現(xiàn)了最佳的整體控制性能。

RoPE設(shè)計:如下表4所示,展示了不同RoPE設(shè)計在記憶機制中的定量結(jié)果,表明重構(gòu)RoPE優(yōu)于樸素的對應(yīng)物,尤其是在視覺指標(biāo)上。如下圖7上半部分所示,RoPE更容易發(fā)生誤差累積。它還增加了記憶和預(yù)測塊之間的距離,導(dǎo)致幾何一致性較弱,如下圖7下半部分所示。

上下文強制:為驗證記憶對齊的重要性,本文訓(xùn)練教師模型時遵循 [74],其中記憶是在潛在級別而非塊級別選擇。雖然這可能減少教師模型中的記憶上下文數(shù)量,但也會在教師模型和學(xué)生模型之間引入失調(diào)的上下文,導(dǎo)致如上圖8a所示的崩潰結(jié)果。此外,對于過去的塊 ,本文嘗試遵循 [68] 中的推理時間策略,將歷史塊自回滾作為上下文。然而,這可能導(dǎo)致雙向擴散模型提供不準(zhǔn)確的分?jǐn)?shù)估計,因為它使用干凈的塊作為記憶進行訓(xùn)練。因此,這種差異引入了如下圖8b所示的偽影。本文通過從真實視頻中采樣獲取歷史塊,這產(chǎn)生了如下圖8c所示的優(yōu)越結(jié)果。

記憶大小消融:如下表7所示,評估了不同記憶大小的效果。使用更大的空間記憶大小略微提高了PSNR指標(biāo),而更大的時間記憶大小更好地保留了預(yù)訓(xùn)練模型的時間連續(xù)性,從而獲得了更好的整體性能。此外,更大的空間記憶大小可能會顯著增加教師模型的記憶大小,因為相鄰塊的空間記憶可能完全不同,而它們的時間記憶重疊。這不僅增加了訓(xùn)練教師模型的難度,也對蒸餾提出了挑戰(zhàn)。

應(yīng)用:

3D重建:如上圖1d和下圖17所示,受益于長期幾何一致性,WorldPlay可以集成3D重建模型以生成高質(zhì)量點云。

可提示事件:如下圖9和上圖1e以及下圖16上半部分所示,WorldPlay支持文本交互來觸發(fā)動態(tài)世界事件,用戶可以隨時提示以響應(yīng)性地改變正在進行的流。

視頻續(xù)寫:如上圖16下半部分所示,WorldPlay可以生成與給定初始視頻片段在運動、外觀和光照方面高度一致的后續(xù)內(nèi)容,從而實現(xiàn)穩(wěn)定的視頻續(xù)寫,有效地擴展原始視頻,同時保持時空一致性和內(nèi)容連貫性。

VBench和用戶研究:

VBench評估:如下圖14所示,WorldPlay在VBench的多項指標(biāo)上表現(xiàn)出色,尤其在一致性、運動平滑度和場景泛化能力等關(guān)鍵方面取得了突出成果。

用戶研究:如下圖15所示,通過對30名評估員進行的用戶研究表明,WorldPlay在視覺質(zhì)量、控制準(zhǔn)確性和長期一致性等所有評估指標(biāo)上均優(yōu)于其他基線模型,充分證明了WorldPlay在實時交互和長期一致性方面的能力。

結(jié)論

WorldPlay是一個強大的世界模型,具有實時交互性和長期幾何一致性。它賦能用戶能夠做到:

卓越的幾何一致性:WorldPlay通過重建上下文記憶和時間重構(gòu)機制,有效地解決了傳統(tǒng)世界模型中場景重訪時出現(xiàn)的幾何不一致問題,即使在長期生成中也能保持環(huán)境的穩(wěn)定和連貫。

實時的交互性:利用上下文強制蒸餾方法和一系列優(yōu)化技術(shù)(如混合并行、流式部署、漸進式解碼、量化和高效注意力),WorldPlay實現(xiàn)了24 FPS的720p視頻生成,為用戶提供了沉浸式的實時交互體驗。

強大的泛化能力:在包含真實世界和合成數(shù)據(jù)的多樣化大規(guī)模數(shù)據(jù)集上進行訓(xùn)練,使得WorldPlay能夠廣泛應(yīng)用于第一人稱和第三人稱場景,以及各種風(fēng)格的世界,包括3D重建和文本驅(qū)動的動態(tài)事件。

創(chuàng)新的核心技術(shù):雙重動作表示融合了離散按鍵和連續(xù)攝像機姿態(tài)的優(yōu)點,實現(xiàn)了精確而魯棒的控制。重建上下文記憶動態(tài)管理和重構(gòu)歷史幀,克服了長程信息衰減。上下文強制通過對齊教師模型和學(xué)生模型的記憶上下文,有效緩解了誤差累積和分布不匹配問題。

總的來說,WorldPlay在實時交互式世界建模領(lǐng)域取得了顯著進展,為未來具身智能、游戲開發(fā)和虛擬環(huán)境構(gòu)建等應(yīng)用奠定了堅實基礎(chǔ)。

參考文獻

[1] WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling

       原文標(biāo)題 : 24FPS實時生成!騰訊混元推出WorldPlay:打破“速度與記憶”悖論,720P無限流視頻隨意玩!

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號