訂閱
糾錯
加入自媒體

《黑客帝國》雛形已現(xiàn)?騰訊造出“可對話游戲宇宙”,實時生成、任意交互,世界為你改變!

作者:Junshu Tang等

解讀:AI生成未來

Hunyuan-GameCraft-2將生成式游戲世界模型從靜態(tài)游戲場景視頻合成提升到開放式、遵循指令的交互式模擬。

Hunyuan-GameCraft-2將生成式游戲世界模型從靜態(tài)游戲場景視頻合成提升到開放式、遵循指令的交互式模擬。合成交互視頻Pipeline展示

合成交互視頻Pipeline展示Pipeline of the Data Curation System

Pipeline of the Data Curation SystemPipeline of the Caption Generation SystemPipeline of the Caption Generation System

亮點直擊

提出了一個統(tǒng)一的可控視頻生成框架,該框架集成了文本、鍵盤和鼠標信號,以實現(xiàn)基于語義的交互操作。

利用自回歸蒸餾與隨機化長視頻微調(diào)技術(shù),確保高效穩(wěn)定的長時序視頻生成,并通過KV緩存重計算實現(xiàn)多輪推理優(yōu)化,結(jié)合工程優(yōu)化實現(xiàn)實時16幀/秒的性能。

通過大量的定量與定性實驗,全面驗證了所提出框架的有效性,結(jié)果表明該框架在生成交互式視頻方面性能優(yōu)異,能夠忠實響應用戶指令,同時保持視覺質(zhì)量和時序連貫性。

總結(jié)速覽

解決的問題

現(xiàn)有生成式世界模型在創(chuàng)建開放式游戲環(huán)境方面取得了進展,但仍存在以下限制:

僵硬的動作圖式和高標注成本: 當前方法依賴于固定的鍵盤輸入等動作模式和大量的標注數(shù)據(jù),這限制了它們建模多樣化游戲內(nèi)交互玩家驅(qū)動的動態(tài)的能力。

缺乏形式化的交互定義和可擴展的構(gòu)建流程: 在世界模型的背景下,缺乏對“交互”的明確定義,以及將大規(guī)模非結(jié)構(gòu)化文本-視頻對轉(zhuǎn)化為交互式數(shù)據(jù)集的高效、可擴展管道。

輪交互中的長期一致性: 在生成長視頻時,保持視頻質(zhì)量交互準確性方面的挑戰(zhàn),以及誤差積累問題。

提出的方案

文章提出了 Hunyuan-GameCraft-2,一種基于指令驅(qū)動交互的生成式游戲世界建模新范式。

指令驅(qū)動的靈活控制: 允許用戶通過自然語言提示、鍵盤鼠標信號來控制游戲視頻內(nèi)容,實現(xiàn)靈活且具有語義豐富的交互。

交互式視頻數(shù)據(jù)(Interactive Video Data)的正式定義: 將世界模型中的交互定義為“由一個明確的代理執(zhí)行的、能夠觸發(fā)環(huán)境中具有清晰因果關(guān)系物理或邏輯有效性的狀態(tài)轉(zhuǎn)換的動作”。

自動化交互式數(shù)據(jù)構(gòu)建管道: 開發(fā)了兩個自動化管道,能夠?qū)⒋笠?guī)模、非結(jié)構(gòu)化的文本-視頻對轉(zhuǎn)化為富含隱式因果標簽的開放域交互式數(shù)據(jù)集。

統(tǒng)一的控制機制: 將基于文本的指令鍵盤/鼠標動作信號集成到一個統(tǒng)一的、可控的視頻生成器中。

新的評估基準: 引入 InterBench,一個以交互為中心的基準,用于系統(tǒng)地評估交互性能的關(guān)鍵維度(如交互完整性、動作有效性、因果連貫性和物理合理性)。

應用的技術(shù)

Hunyuan-GameCraft-2 模型建立在以下技術(shù)之上:

14B 圖像到視頻的 MoE(Mixture-of-Experts)基礎(chǔ)模型: 模型的基礎(chǔ)架構(gòu)。

文本驅(qū)動的交互注入機制: 用于細粒度控制攝像機運動、角色行為和環(huán)境動態(tài)。

自回歸蒸餾策略(Autoregressive Distillation): 將雙向視頻生成器轉(zhuǎn)化為因果自回歸模型,以支持高效的長周期視頻生成。

隨機化的圖像到長視頻擴展調(diào)整方案(Randomized Image-to-Long-Video Extension Tuning): 用于緩解長時程推演中的誤差積累問題,確保生成穩(wěn)定連貫的長視頻。

KV-Recache 機制(參照 LongLive): 用于增強自回歸長視頻生成中多輪交互的準確性和穩(wěn)定性。

工程加速優(yōu)化: 提高了模型的推理速度。

達到的效果

通過廣泛的實驗和 InterBench 上的評估,Hunyuan-GameCraft-2 取得了以下效果:

生成效果領(lǐng)先: 在 InterBench 和通用視頻質(zhì)量指標上實現(xiàn)了最先進(state-of-the-art)的性能。

高質(zhì)量和一致性: 能夠生成時間上連貫、具有因果基礎(chǔ)的交互式游戲視頻。

忠實響應指令: 能夠忠實地響應多樣化自由形式的用戶指令,例如“打開門”、“畫一個火把”或“觸發(fā)爆炸”。

實時交互能力: 模型的推理速度提升至 16 FPS,實現(xiàn)了實時交互式視頻生成。

方法

本文提出了 Hunyuan-GameCraft-2,這是一個專注于自由形式指令控制的交互式游戲視頻模型。整體框架如下圖 5 所示。具體而言,本工作將自然的動作注入因果架構(gòu)、圖像條件自回歸長視頻生成以及多樣化的多提示詞交互統(tǒng)一到了一個緊密的框架中。本節(jié)將介紹模型架構(gòu)、訓練過程及推理過程。

模型架構(gòu)

本模型的主要架構(gòu)基于一個 14B 參數(shù)的圖生視頻混合專家(MoE)基礎(chǔ)視頻生成模型。本工作的目標是將該圖生視頻擴散模型擴展為一個動作可控的生成器。動作空間包括鍵盤輸入和自由形式的文本提示詞。

對于鍵盤和鼠標信號注入(W, A, S, D, , Space 等),本工作采用了 GameCraft-1的方法,將這些離散的動作信號映射為連續(xù)的相機控制參數(shù)。在訓練期間,標注的相機參數(shù)被編碼為 Plücker 嵌入,并通過令牌相加(token addition)的方式集成到模型中。在推理時,用戶輸入被轉(zhuǎn)換為相機軌跡以推導出這些參數(shù)。

關(guān)于基于提示詞的交互注入,本文觀察到基礎(chǔ)模型難以表達某些交互性動詞,這主要是因為交互文本相比場景描述具有更高的語義和空間復雜性。此類文本通常與特定的視覺區(qū)域或?qū)ο髮嵗o密耦合。為了緩解這一問題,本工作利用多模態(tài)大語言模型(MLLM)來提取、推理并將交互信息注入到主模型中。這能夠豐富與交互相關(guān)的文本指導,提高模型在訓練過程中區(qū)分通用文本指令和細粒度交互行為的能力。這種相機條件控制與基于文本的場景及交互輸入相結(jié)合,形成了一種統(tǒng)一的機制,使 Hunyuan-GameCraft-2 能夠在環(huán)境中無縫地導航和交互。

如上圖 5 所示,給定參考圖像及相應的動作、鍵盤/鼠標信號和基于提示詞的指令,本工作將這些選項注入到主架構(gòu)中。在訓練和推理過程中,利用 Self-Forcing 后訓練進行長視頻擴展,并利用 KV-cache/recache 進行多動作切換。為了保持長視頻的質(zhì)量,設(shè)計了一種隨機化長視頻微調(diào)方案。

訓練過程

為了實現(xiàn)長時長且實時的交互式視頻生成,必須將基礎(chǔ)的雙向模型蒸餾為少步數(shù)的因果生成器。在本工作中,我們將綜合自回歸蒸餾技術(shù) Self-Forcing擴展到了 14B MoE 圖生視頻模型上。該方案專為增強長視頻生成的質(zhì)量和效率而定制,因為長視頻生成通常具有大幅度且快速的場景變化。本文引入了隨機擴展微調(diào)(random extension tuning)以減輕誤差累積。訓練過程分為四個階段:(1)動作注入訓練,(2)指令導向的監(jiān)督微調(diào)(SFT),(3)自回歸生成器蒸餾,以及(4)隨機化長視頻擴展微調(diào)。

動作注入訓練

此階段的主要目標是建立對 3D 場景動態(tài)、光照和物理的基本理解。本工作加載預訓練權(quán)重,并使用流匹配(flow-matching)目標對模型進行微調(diào)以適應架構(gòu)調(diào)整。為了提高長期一致性,采用了課程學習策略。具體而言,將訓練分為三個階段,依次讓模型接觸 480p 分辨率下的 45、81 和 149 幀的視頻數(shù)據(jù)。這種階梯式的方法使模型能夠先鞏固對短期運動動態(tài)的理解,然后逐漸調(diào)整其注意力機制以處理更長持續(xù)時間連貫性所需的復雜依賴關(guān)系。此外,在訓練期間隨機選擇長和短的標題,并拼接交互式標題以進行交互學習。此選項有助于模型初步感知交互信息的注入。

指令導向的監(jiān)督微調(diào)

為了增強模型的交互能力,本工作通過利用程序生成的合成視頻增強真實世界素材,構(gòu)建了一個包含 150K 樣本的數(shù)據(jù)集。這些合成序列可以提供跨多種交互類型(例如,狀態(tài)轉(zhuǎn)換、主體交互)的高保真監(jiān)督信號,從而建立動作與其視覺結(jié)果之間的緊密對應關(guān)系。在隨后的階段中,凍結(jié)相機編碼器的參數(shù),僅微調(diào) MoE 專家層。此過程旨在優(yōu)化模型與語義控制線索的對齊。

自回歸生成器蒸餾

對于交互式世界模型而言,將定長視頻生成器擴展為高質(zhì)量的自回歸長視頻生成至關(guān)重要。先前的工作在長視頻生成方面已進行了初步嘗試。基于高噪聲和低噪聲 MoE 架構(gòu)及相機參數(shù)注入,本工作對注意力機制和蒸餾協(xié)議進行了針對性的調(diào)整。這些修改專門用于優(yōu)化自回歸蒸餾過程中的性能。

Sink Token 與塊稀疏注意力(Block Sparse Attention):先前的技術(shù)使用直接滑動窗口方法更新因果注意力的 KV 緩存。然而,這可能導致生成質(zhì)量隨時間下降,因為后續(xù)步驟無法引用初始條件幀,導致漂移。本工作將初始幀指定為 Sink Token(錨點令牌),并始終保留在 KV 緩存中。這一修改有兩個關(guān)鍵作用:首先,它提高并穩(wěn)定了生成質(zhì)量。其次,在本工作的特定任務中,Sink Token 提供了坐標系原點的信息。這確保了在自回歸過程中注入的相機參數(shù)始終與初始幀對齊,從而避免了因坐標原點偏移而在每個自回歸步驟都需要重新緩存(recache)的問題。此外,本工作采用塊稀疏注意力進行局部注意力計算,這更適合自回歸、分塊生成的流程。具體來說,正在生成的目標塊可以關(guān)注一組先前的塊。這種局部注意力與上述 Sink 注意力相結(jié)合,構(gòu)成了完整的 KV 緩存,在提高生成質(zhì)量的同時也加速了生成速度。

蒸餾調(diào)度(Distillation Schedule):由于 MoE 架構(gòu)的獨特性,高噪聲專家在訓練和收斂方面比低噪聲專家面臨更大的挑戰(zhàn),特別是在 SFT 或蒸餾期間。為了解決這個問題,本工作為每個專家分配了不同的學習率。同時,根據(jù)分隔兩個專家的噪聲水平邊界,重新定義了用于蒸餾的去噪時間步目標列表。這確保了教師模型和學生模型在蒸餾過程中選擇高噪聲或低噪聲專家時保持一致性(如下圖 6 所示)。

隨機化長視頻擴展微調(diào)

本工作實現(xiàn)長視頻生成的方法受到了一個觀察的啟發(fā):盡管基礎(chǔ)模型是在短片段上預訓練的,但它隱含地捕捉了全局視覺數(shù)據(jù)分布。先前的方法 從因果生成器中展開長視頻序列,并在擴展幀上應用分布矩距離(DMD)對齊。該策略有效地減輕了自回歸生成過程中的誤差累積。

基于這一見解,本工作采用隨機化擴展微調(diào)策略,使用超過 10 秒的長時長游戲視頻數(shù)據(jù)集。在這個階段,模型自回歸地展開  幀,并均勻采樣連續(xù)的  幀窗口以對齊預測分布和目標分布(真實值或教師先驗)。此外,我們將預測視頻從因果生成器隨機擴展到不同的長度,以提高跨不同時間范圍的魯棒性。在實踐中,當在窗口  展開時,學生生成器使用 Sink Token 和 KV 緩存并自回歸地擴展長視頻,而 Fake Score 教師模型使用前一個干凈預測塊中的最后一幀  作為圖像條件;Real Score 則使用原始視頻中的真實幀。

為了減輕少步數(shù)蒸餾固有的交互能力侵蝕,本工作采用了一種交錯使用 Self-forcing(自身強制)與 Teacher-forcing(教師強制)的訓練范式。這種方法的理由是迫使模型掌握狀態(tài)恢復并保持時間穩(wěn)定性。至關(guān)重要的是,這是通過在生成軌跡的任意點將其暴露于不同狀態(tài)來實現(xiàn)的,而不是將這種糾正訓練僅限于初始階段。

多輪交互推理

自注意力 KV 緩存:為了保持與訓練策略的一致性,推理過程采用了具有滾動更新機制的固定長度自注意力 KV 緩存,以促進高效的自回歸生成,如下圖 7 所示。具體而言,Sink Token 永久保留在緩存窗口的開始處。隨后的部分作為局部注意力窗口,在整個多輪交互中保留目標去噪塊之前的  幀。完整的 KV 緩存由這些 Sink Token 和局部注意力組件組成,通過塊稀疏注意力實現(xiàn)。這種設(shè)計不僅提高了自回歸效率,還有效防止了質(zhì)量漂移。

ReCache(重緩存)機制:本工作采用 Recache 機制來增強自回歸長視頻生成中多輪交互的準確性和穩(wěn)定性。在接收到新的交互提示詞后,模型提取相應的交互嵌入以重新計算最后一個自回歸塊,并更新自注意力和交叉注意力 KV 緩存。該策略以最小的計算開銷為隨后的目標塊提供了精確的歷史上下文,從而確保準確和響應迅速的反饋,以促進更流暢的用戶體驗。

實時交互加速

為了進一步加速推理并最小化延遲,本工作結(jié)合了幾項系統(tǒng)級優(yōu)化:

FP8 量化: 減少內(nèi)存帶寬并利用 GPU 加速,同時保持視覺質(zhì)量;

并行化 VAE 解碼: 實現(xiàn)了潛在幀(latent-frame)的同步重建,緩解了長序列解碼的瓶頸;

SageAttention: 用優(yōu)化的量化注意力內(nèi)核替換 FlashAttention,以加快 Transformer 計算;

序列并行(Sequence parallelism): 將視頻令牌分布在多個 GPU 上,支持高效的長上下文生成。

綜合這些技術(shù),推理速度提升至 16 FPS,實現(xiàn)了具有穩(wěn)定質(zhì)量和低延遲的實時交互式視頻生成。

實驗

模型與數(shù)據(jù)集配置

實驗將 Hunyuan-GameCraft-2 與幾種 SOTA 圖生視頻基礎(chǔ)模型進行了對比,包括 HunyuanVideo、Wan2.2 A14B 和 LongCatVideo。所有基線模型均在官方推薦的配置下運行。為了評估,構(gòu)建了一個包含三個核心交互維度的測試套件:(1) 環(huán)境交互,(2) 角色動作,(3) 實體與物體出現(xiàn)。測試集包含 100 張覆蓋多種場景和風格的圖片,所有模型統(tǒng)一生成分辨率為 、長度為 93 幀的視頻。

評估指標

評估使用了兩類指標:

通用指標: 包括 FVD(視頻真實感)、圖像質(zhì)量與美學評分、時間一致性以及動態(tài)平均值(光流幅度)。此外還使用相對位姿誤差(RPE)評估相機控制精度。

InterBench(交互基準): 本文提出的針對動作級交互的六維度評估協(xié)議。使用 VLM 作為自動評估器,涵蓋以下維度:交互觸發(fā)率(是否發(fā)生了動作)提示詞-視頻對齊度(語義保真度)交互流暢度(時間自然度)交互范圍準確性(空間影響是否合理)終態(tài)一致性(最終狀態(tài)是否穩(wěn)定)物體物理正確性(結(jié)構(gòu)完整性與運動學)交互評估結(jié)果

定量結(jié)果:如下表 5 所示,GameCraft-2 在所有交互類別(環(huán)境、角色動作、實體出現(xiàn))的各項指標上均顯著優(yōu)于基線模型。

觸發(fā)率: GameCraft-2 的交互觸發(fā)率極高(環(huán)境交互 0.962,角色動作 0.983),遠超其他模型。物理與一致性: 在物理正確性方面,比次優(yōu)模型高出 0.52-0.68 分;在流暢度和終態(tài)一致性上也表現(xiàn)出大幅提升。綜合性能: 如下表 4 所示,在通用視頻質(zhì)量指標(FVD、圖像質(zhì)量等)和實時性(16 FPS)方面,GameCraft-2 也達到了最佳平衡。

定性分析:通過可視化對比(文中圖 10, 11, 12, 13, 22-24),GameCraft-2 展現(xiàn)了更高的保真度:

環(huán)境交互: 如“降雪”能實現(xiàn)全局覆蓋和動態(tài)積雪,而基線模型往往缺乏動態(tài)演變。角色動作: 生成的動作(如“持槍射擊”)更加連貫,手物接觸準確,且終態(tài)穩(wěn)定。物體出現(xiàn): 新生成的實體(如“龍”或“車輛”)能保持結(jié)構(gòu)完整性和身份一致性。

泛化能力:模型展示了超出訓練分布的泛化能力。例如,盡管訓練數(shù)據(jù)中沒有“人突然出現(xiàn)”或“龍出現(xiàn)”的具體實例,模型仍能處理這些未見過的交互,生成符合物理規(guī)律的狀態(tài)轉(zhuǎn)換(圖 15)。

消融實驗

針對長視頻微調(diào)和 KV-Cache 設(shè)置進行了消融研究(文中圖 16):

長視頻微調(diào): 引入隨機化擴展長視頻微調(diào)顯著提高了 450 幀以后的視頻保真度和運動一致性。

Cache 設(shè)置: 增加 Sink Token 和局部注意力的大小可以豐富細節(jié),但可能增加偽影。

總結(jié)

Hunyuan-GameCraft-2,一種交互式游戲世界模型,能夠響應自由形式的文本指令和鍵盤/鼠標動作,生成高保真、可控的視頻。本工作正式定義了交互式視頻數(shù)據(jù),并提出了用于其策展和合成的自動化流程,有效地解決了阻礙該領(lǐng)域發(fā)展的數(shù)據(jù)瓶頸問題。

本模型在一個穩(wěn)健的訓練框架內(nèi)統(tǒng)一了多模態(tài)控制信號,利用新穎的隨機化長視頻微調(diào)方案和高效的推理機制(如 KV-recache),實現(xiàn)了穩(wěn)定、長時長且實時的交互式生成。為了嚴格評估本工作的貢獻,引入了 InterBench,這是一個專門設(shè)計用于評估動作級交互質(zhì)量的新基準。廣泛的實驗表明,GameCraft-2 在交互保真度、視覺質(zhì)量和時間一致性的所有維度上均顯著優(yōu)于現(xiàn)有的最先進模型。通過將前沿技術(shù)從被動的視頻合成推向主動的、用戶驅(qū)動的世界生成,本工作標志著邁向創(chuàng)建真正可玩且沉浸式 AI 生成虛擬體驗的重要一步。

參考文獻

[1] Hunyuan-GameCraft-2: Instruction-following Interactive Game World Model

       原文標題 : 《黑客帝國》雛形已現(xiàn)?騰訊造出“可對話游戲宇宙”,實時生成、任意交互,世界為你改變!

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號