訂閱
糾錯
加入自媒體

超越Veo和Runway!可靈開源Kling-Omni:一個模型通吃視頻生成、剪輯和多模態(tài)推理!

作者:Kling 團(tuán)隊

解讀:AI生成未來

亮點直擊

統(tǒng)一的通用框架:Kling-Omni將多樣化的視頻生成、編輯和智能推理任務(wù)整合到一個端到端的通用生成框架中,打破了傳統(tǒng)碎片化的處理模式。

創(chuàng)新性的多模態(tài)視覺語言 (MVL) 范式:引入MVL作為交互機制,結(jié)合文本指令、參考圖像和視頻上下文,構(gòu)建統(tǒng)一的輸入表示,顯著提升了模型理解和推斷用戶復(fù)雜意圖的能力。

強大的模型智能和推理能力:通過MVL范式,模型超越了簡單的像素級合成,展現(xiàn)出深度理解語義、物理邏輯和進(jìn)行智能推理的潛力。

全面的訓(xùn)練與優(yōu)化策略:構(gòu)建了包括指令預(yù)訓(xùn)練、監(jiān)督微調(diào)、強化學(xué)習(xí)和模型蒸餾在內(nèi)的多階段訓(xùn)練策略,并通過優(yōu)化的數(shù)據(jù)管道和基礎(chǔ)設(shè)施確保了大規(guī)模訓(xùn)練的效率和可擴展性。

卓越的性能表現(xiàn):在人類評估中,Kling-Omni在多模態(tài)引用生成、智能編輯和復(fù)雜指令遵循等多個關(guān)鍵任務(wù)上,表現(xiàn)出超越現(xiàn)有領(lǐng)先模型的先進(jìn)性能。部分效果展示

總結(jié)速覽

解決的問題

當(dāng)前視頻生成、編輯和智能推理任務(wù)之間存在功能分離,導(dǎo)致工具碎片化,難以處理多樣化的用戶輸入并實現(xiàn)高級別的感知與創(chuàng)作協(xié)同。具體挑戰(zhàn)包括:

碎片化的視頻生成與編輯方法:現(xiàn)有模型通常專注于特定任務(wù),如文本/圖像到視頻合成,且依賴靜態(tài)文本編碼器,難以捕捉復(fù)雜視覺細(xì)節(jié)。視頻編輯和理解也常依賴獨立的、任務(wù)特定的管道或外部適配器,造成集成和擴展困難。

交互范式的限制:僅依賴自然語言提示難以捕捉視覺想象的細(xì)微之處,文本在描述精確空間關(guān)系、視覺參考和時間動態(tài)方面存在固有局限,導(dǎo)致用戶意圖與模型輸出之間存在差距。

模型智能不足:現(xiàn)有模型在像素級合成方面表現(xiàn)出色,但往往缺乏語義推理能力,難以理解場景的底層物理或邏輯,更像是被動生成器而非能推斷復(fù)雜用戶意圖的智能代理。

提出的方案

Kling-Omni是一個通用生成框架,旨在通過統(tǒng)一視頻生成、編輯和智能創(chuàng)作任務(wù)來解決上述挑戰(zhàn)。核心方案包括:

一體化通用框架:將不同的視頻生成、編輯和智能推理任務(wù)整合到一個端到端的整體系統(tǒng)中,摒棄了碎片化的管道方法。

多模態(tài)視覺語言 (MVL) 交互范式:引入MVL作為新的交互機制,通過結(jié)合自然語言作為語義骨架和多模態(tài)描述,構(gòu)建統(tǒng)一的輸入表示。這增強了模型的基礎(chǔ)理解和控制,將文本和視覺信號視為一種內(nèi)聚的語言。

強化模型智能與推理能力:通過MVL范式,模型能夠深度理解并推斷用戶意圖,超越簡單的生成,展現(xiàn)出意想不到的推理能力。

應(yīng)用的技術(shù)

Kling-Omni的實現(xiàn)依賴于多種先進(jìn)技術(shù)和策略:

核心架構(gòu):基于與視覺-語言模型對齊的擴散Transformer構(gòu)建,建立了一個共享嵌入空間,實現(xiàn)深度跨模態(tài)交互。

三階段訓(xùn)練策略預(yù)訓(xùn)練:利用大規(guī)模文本-視頻配對數(shù)據(jù),結(jié)合指令驅(qū)動的文本到視頻生成和圖像到視頻任務(wù),建立對多樣指令格式和MVL上下文的敏感性。

監(jiān)督微調(diào):包括“持續(xù)訓(xùn)練”以對齊復(fù)雜MVL輸入(涵蓋參考到視頻生成、圖像/視頻編輯和語義理解任務(wù))和“質(zhì)量微調(diào)”以提升生成質(zhì)量和多模態(tài)理解能力。強化學(xué)習(xí) (RL):采用直接偏好優(yōu)化(DPO)來彌合模型輸出與人類審美偏好之間的差距,優(yōu)化運動動力學(xué)和視覺完整性。

模型加速:開發(fā)了兩階段蒸餾方法,包括軌跡匹配蒸餾和分布匹配蒸餾,顯著減少推理的計算成本(從150 NFE壓縮到10 NFE)。

Prompt Enhancer (PE) 模塊:基于多模態(tài)大語言模型(MLLM)構(gòu)建,用于將多樣化用戶提示映射到與模型訓(xùn)練數(shù)據(jù)一致的分布上,并通過SFT和RL進(jìn)行訓(xùn)練,以提高生成質(zhì)量和物理合理性。

多模態(tài)超分辨率模塊:采用級聯(lián)擴散框架,基于基礎(chǔ)模型的低分辨率潛在特征和MVL信號進(jìn)行條件設(shè)置,以合成高保真、細(xì)粒度的視覺細(xì)節(jié)和紋理,并利用局部窗口注意力、偏移窗口策略和非對稱注意力機制來提高效率。

訓(xùn)練優(yōu)化:包括多模態(tài)數(shù)據(jù)管道和負(fù)載均衡(采用啟發(fā)式調(diào)度策略、微批次級彈性ulysses并行切換機制和兩層all-to-all策略)以及高效多模態(tài)框架和激活減少(使用MM-FlashAttention和選擇性重計算)。

達(dá)到的效果

Kling-Omni通過綜合評估展現(xiàn)了卓越的能力和顯著的效果:

卓越的生成和編輯性能:在OmniVideo-1.0基準(zhǔn)測試中的人類評估表明,Kling-Omni在圖像參考和視頻編輯任務(wù)上,在動態(tài)質(zhì)量、提示遵循、身份一致性和視頻一致性等所有評估維度上均優(yōu)于行業(yè)領(lǐng)先模型(如Veo 3.1和Runway-Aleph)。

強大的上下文生成能力:在上下文中展現(xiàn)出色的生成能力,包括多模態(tài)和多維度精確引用(如圖像、視頻和文本輸入,以及身份、狀態(tài)、風(fēng)格、鏡頭構(gòu)圖和動作等多個引用維度)。

智能推理編輯能力:能夠進(jìn)行推理驅(qū)動的編輯,例如通過解釋圖像序列生成連貫的時間敘事,以及實現(xiàn)高自由度的交互式編輯,允許用戶沿任意維度(元素、風(fēng)格、場景、鏡頭)進(jìn)行內(nèi)容控制。

復(fù)雜指令遵循能力:能夠在一個生成過程中處理組合的復(fù)雜指令,無需順序任務(wù)執(zhí)行或手動分解,簡化了工作流程并避免了錯誤累積。

更廣泛的智能潛力:探索性研究表明,模型能夠?qū)崿F(xiàn)視覺信號驅(qū)動的可控生成和推理增強型生成,例如通過GPS坐標(biāo)實現(xiàn)地理空間推理,以及通過理解時間動態(tài)進(jìn)行時間推理,從而實現(xiàn)上下文感知的場景合成和智能問題解決。

高效率:通過模型蒸餾,推理效率顯著提升,合成單個視頻樣本的計算成本大幅降低。

架構(gòu)方法

Kling-Omni是一個通用生成框架,旨在直接從多模態(tài)視覺語言(MVL)輸入合成高保真視頻。本文采用端到端視角,彌合了各種視頻生成、編輯和智能推理任務(wù)之間的功能分離,將它們整合到一個整體系統(tǒng)中。與分離的管道方法不同,Kling-Omni支持多樣化的用戶輸入,包括文本指令、參考圖像和視頻上下文,將它們處理成統(tǒng)一的多模態(tài)表示,以提供電影質(zhì)量和高度智能的視頻內(nèi)容創(chuàng)作。為了支持這些功能,本文構(gòu)建了一個全面的數(shù)據(jù)系統(tǒng),作為多模態(tài)視頻創(chuàng)作的基礎(chǔ)。該框架通過高效的大規(guī)模預(yù)訓(xùn)練策略和推理基礎(chǔ)設(shè)施優(yōu)化進(jìn)一步增強。

如下圖1所示,該架構(gòu)包含三個關(guān)鍵組件,并由強大的訓(xùn)練和基礎(chǔ)設(shè)施生態(tài)系統(tǒng)提供支持。

Prompt Enhancer (PE) 模塊:為了彌合異構(gòu)用戶輸入和模型表示之間的鴻溝,PE模塊采用多模態(tài)大語言模型(MLLM)來理解復(fù)雜的輸入,并將其與學(xué)習(xí)到的世界知識進(jìn)行綜合。通過這樣做,它推斷出創(chuàng)作者的特定創(chuàng)作意圖并相應(yīng)地重新組織提示。這些經(jīng)過優(yōu)化的特征作為Omni-Generator的輸入。

Omni-Generator:處理共享嵌入空間中的視覺和文本標(biāo)記,實現(xiàn)深度跨模態(tài)交互,確保強大的視覺一致性和精確的指令遵循。

多模態(tài)超分辨率模塊:對原始MVL信號進(jìn)行條件處理,以細(xì)化高頻細(xì)節(jié)。

整個系統(tǒng)由漸進(jìn)式多階段訓(xùn)練策略驅(qū)動,包括指令預(yù)訓(xùn)練、監(jiān)督微調(diào)到強化學(xué)習(xí)(RL),并在利用3D并行和模型蒸餾的高度優(yōu)化基礎(chǔ)設(shè)施上運行,以提高訓(xùn)練和推理效率。

Omni-Generator的訓(xùn)練策略

預(yù)訓(xùn)練 在預(yù)訓(xùn)練階段,本文利用大規(guī)模文本-視頻配對數(shù)據(jù),向模型灌輸強大的基于指令的文本到視頻生成能力。為確保模型能適應(yīng)廣泛的用戶輸入,本文精心策劃了從簡潔提示到詳細(xì)敘述的各種字幕,從而為理解多樣化的指令格式奠定了堅實的基礎(chǔ)。此外,為促進(jìn)模型對多模態(tài)視覺語言(MVL)上下文的敏感性,本文將圖像到視頻任務(wù)注入訓(xùn)練混合中,在視覺和文本模態(tài)之間建立早期協(xié)同作用。

監(jiān)督微調(diào)

持續(xù)訓(xùn)練:此階段側(cè)重于使模型與復(fù)雜的MVL輸入深度對齊。本文引入了一個全面的課程,包括參考到視頻生成、圖像/視頻編輯以及一系列用于語義理解的專業(yè)任務(wù)。這些任務(wù)的特點是圖像、視頻和文本條件的交錯格式。通過將模型暴露于此類異構(gòu)且信息豐富的數(shù)據(jù),有效增強了其解釋復(fù)雜指令和執(zhí)行初步推理的能力。

質(zhì)量微調(diào):為了進(jìn)一步提高模型的生成質(zhì)量和多模態(tài)理解能力,本文精心構(gòu)建了一個高質(zhì)量數(shù)據(jù)集,其特點是任務(wù)分布均衡和視頻標(biāo)準(zhǔn)卓越。每個數(shù)據(jù)樣本都與精確的指令注釋配對。通過對這個優(yōu)質(zhì)數(shù)據(jù)集進(jìn)行迭代微調(diào),本文逐步優(yōu)化模型的輸出分布,使其進(jìn)入卓越視覺質(zhì)量和理解能力的領(lǐng)域。

強化學(xué)習(xí)為了彌合模型輸出與人類審美偏好之間的差距,本文采用直接偏好優(yōu)化(DPO)。本文傾向于DPO而不是像GRPO這樣的替代算法,因為它繞過了后者所需的計算成本高昂的軌跡采樣,提供了簡化的單步擴散正向過程。優(yōu)化目標(biāo)集中在關(guān)鍵感知指標(biāo)上,特別是運動動力學(xué)和視覺完整性。

模型加速 (蒸餾)本文開發(fā)了一種兩階段蒸餾方法,以顯著降低推理的計算成本,同時保持輸出保真度。加速管道結(jié)合了軌跡匹配蒸餾和分布匹配蒸餾,將模型推理壓縮到10個函數(shù)評估(NFE),而蒸餾前合成單個視頻樣本的原始成本為150個NFE。

Prompt Enhancer

為解決用戶輸入固有的模糊性和高方差問題,本文為Kling-Omni引入了一個Prompt Enhancer (PE) 模塊。PE的主要功能是將多樣化的用戶提示映射到與模型訓(xùn)練數(shù)據(jù)一致的分布上。這種對齊對于提高生成質(zhì)量至關(guān)重要,特別是在身份保持、空間連貫性和色彩保真度方面,同時通過文本推理提高物理合理性。PE基于多模態(tài)大語言模型(MLLM)構(gòu)建,以適應(yīng)多模態(tài)用戶輸入。

多模態(tài)超分辨率

為了提高生成器的訓(xùn)練和推理效率,本文提出了一種用于視頻超分辨率(VSR)的級聯(lián)擴散框架。在基礎(chǔ)模型的低分辨率(LR)潛在特征和多模態(tài)視覺語言(MVL)信號的條件下,本文的VSR模型作為統(tǒng)一框架運行。這種內(nèi)聚設(shè)計能夠合成高保真、細(xì)粒度的視覺細(xì)節(jié)和紋理,滿足各種應(yīng)用的需求。如下圖2所示,本文采用基礎(chǔ)模型的架構(gòu),并使用其預(yù)訓(xùn)練權(quán)重初始化VSR模塊。

訓(xùn)練優(yōu)化

本文開發(fā)了一個端到端訓(xùn)練系統(tǒng),優(yōu)化多模態(tài)數(shù)據(jù)處理、并行執(zhí)行和計算內(nèi)核,以實現(xiàn)大規(guī)模預(yù)訓(xùn)練。

多模態(tài)數(shù)據(jù)管道和負(fù)載均衡為了處理文本、圖像和視頻數(shù)據(jù)之間顯著的序列長度變化,本文采用啟發(fā)式調(diào)度策略來減少管道并行(PP)和數(shù)據(jù)并行(DP)組之間的不平衡氣泡。如圖3所示,訓(xùn)練循環(huán)分為兩個階段:在線VAE/文本編碼器推理和DiT訓(xùn)練。中央調(diào)度器將樣本分配給DP組,以確保負(fù)載均衡。

高效多模態(tài)框架和激活減少在DiT訓(xùn)練中,輸入被展平為1D序列,并具有最小的填充,并且計算圖被重構(gòu)以保留模態(tài)無關(guān)的計算,從而最大程度地減少冗余數(shù)據(jù)移動和布局轉(zhuǎn)換開銷。本文開發(fā)了一種多模態(tài)FlashAttention運算符(MM-FlashAttention)的打包版本,以支持單個內(nèi)核中的任意跨模態(tài)掩碼和變長序列,同時保持高性能。

實驗人類評估

為了驗證Kling-Omni與其他領(lǐng)先視頻生成和編輯模型相比的性能,本文構(gòu)建了OmniVideo-1.0基準(zhǔn)測試,其中包含了一套全面且具有代表性的場景。本文收集了大量高質(zhì)量的多模態(tài)數(shù)據(jù)集,包括圖像、主題和視頻作為元素。利用該數(shù)據(jù)集,本文設(shè)計了500多個案例,以全面評估模型引用、集成和編輯不同元素的能力。本文從多個維度精心構(gòu)建了評估集,包括:主題類別(包含人類、卡通人物、動物、服裝和道具)、應(yīng)用場景(如專業(yè)視頻制作、電子商務(wù)廣告和社交媒體內(nèi)容創(chuàng)作)以及額外挑戰(zhàn)(涉及復(fù)雜動作、廣角視角、情感表達(dá)、跨風(fēng)格集成和多元素融合)。

本文與從專業(yè)導(dǎo)演到普通用戶的創(chuàng)作者合作。通過收集不同用戶群體的需求,本文構(gòu)建了一個全面、結(jié)構(gòu)化和可解釋的評估系統(tǒng),以評估模型的整體能力。該系統(tǒng)主要包括以下核心指標(biāo):

動態(tài)質(zhì)量:評估模型的時序性能,關(guān)注幀間連續(xù)性、屬性穩(wěn)定性以及運動相對于物理定律和常識動力學(xué)的合理性。

提示遵循:反映用戶的創(chuàng)作意圖,衡量模型指令遵循的準(zhǔn)確性。

身份一致性:評估模型在視頻中不同視角、表情、復(fù)雜運動和光照條件下,保持參考主體(如人物、物體或風(fēng)格)的身份和結(jié)構(gòu)特征的能力。

視頻一致性:專門針對視頻編輯任務(wù),衡量模型對未編輯區(qū)域的忠實度。

本文基于OmniVideo-Benchmark 1.0進(jìn)行了雙盲人類評估,邀請領(lǐng)域?qū)<液蛯I(yè)標(biāo)注員將Kling-Omni與行業(yè)領(lǐng)先模型進(jìn)行比較。評估人員根據(jù)定義的維度進(jìn)行并排定性評估,將相對性能分為三類:G(好)、S(相同)和B(差)。

如下圖7所示,Image-Reference和Video-Editing任務(wù)的聚合GSB指標(biāo)分布呈現(xiàn)了結(jié)果。本文將Kling-Omni與Veo 3.1在圖像參考任務(wù)上進(jìn)行比較,并與Runway-Aleph在視頻編輯任務(wù)上進(jìn)行比較。結(jié)果表明,Kling-Omni在所有評估維度上都不同程度地優(yōu)于競爭對手,驗證了其在復(fù)雜生成和編輯場景中的魯棒性和可靠性。

通過Kling-Omni釋放想象力

本節(jié)展示了Kling-Omni的功能。如下表1所示,列出了代表性功能,包括但不限于基于引用的生成、指令驅(qū)動的編輯、視頻引用、幀條件生成、組合生成、視覺提示理解、通過智能推理實現(xiàn)的生成等。

多模態(tài)和多維度精確引用Kling-Omni通過多模態(tài)和多維度引用實現(xiàn)精細(xì)可靠的控制,如上表1所示。該模型支持基于多種輸入形式(圖像、視頻和文本)的靈活條件設(shè)置,并允許用戶指定多個維度(包括但不限于身份、狀態(tài)、風(fēng)格、鏡頭構(gòu)圖和動作)的引用信息。

時間敘事

此功能使模型能夠解釋一組相關(guān)圖像(無論是描繪連續(xù)的單一鏡頭還是復(fù)雜的多鏡頭序列),并生成全面的視頻演示,如下圖15和下圖16所示。通過智能地彌合幀之間的視覺間隙,模型構(gòu)建了一個連貫、按時間順序流動的敘事,將靜態(tài)故事板轉(zhuǎn)換為動態(tài)視頻體驗。

高自由度交互式編輯

除了傳統(tǒng)的編輯操作(如內(nèi)容的添加、刪除和替換),Kling-Omni還支持不受時間和空間限制的無約束交互式操作,允許用戶沿任意維度(包括元素、風(fēng)格、場景和鏡頭)控制視頻內(nèi)容,如下圖17至下圖23所示。

靈活的任務(wù)組合

如圖24和圖25所示,該模型能夠在一個生成過程中處理組合的復(fù)雜指令,而無需順序任務(wù)執(zhí)行或手動分解。這種統(tǒng)一的方法不僅簡化了工作流程,還避免了順序編輯中通常出現(xiàn)的錯誤累積,確保了更一致和準(zhǔn)確的結(jié)果,同時提高了整體生成效率。

Kling-Omni的更廣泛潛力

本文對智能推理增強型生成進(jìn)行了探索性研究,集成了一個更強大的視覺-語言推理引擎,以彌合抽象用戶提示與具體視覺執(zhí)行之間的差距。如下圖27所示,該系統(tǒng)利用世界知識,例如解釋GPS坐標(biāo)或推斷時間動態(tài),將用戶指令置于真實世界語境中。例如,它可以解碼原始地理坐標(biāo)以檢索相關(guān)的地標(biāo)知識(例如埃菲爾鐵塔),從而實現(xiàn)上下文感知的場景合成。此外,如下圖28所示,該系統(tǒng)展示了推理能力,包括用于排序任務(wù)的幾何和關(guān)系推理,以及用于完成視覺謎題的語義結(jié)構(gòu)推理。

結(jié)論 

Kling-Omni,一個通用生成模型,它彌合了視頻生成、編輯和多模態(tài)推理之間的傳統(tǒng)界限。通過利用與視覺-語言模型對齊的擴散Transformer,Kling-Omni建立了一個共享嵌入空間,實現(xiàn)了深度的跨模態(tài)交互。Kling-Omni有效地用一個單一的整體系統(tǒng)取代了碎片化的專家模型,該系統(tǒng)能夠處理多模態(tài)視覺語言(MVL)輸入,以生成高保真、物理上可信的視頻內(nèi)容。本文的貢獻(xiàn)不僅限于模型架構(gòu),還包括強大的訓(xùn)練和數(shù)據(jù)基礎(chǔ)設(shè)施。本文構(gòu)建了一個全面的數(shù)據(jù)工程管道,確保了時間穩(wěn)定性和語義對齊,并實施了高度優(yōu)化的基礎(chǔ)設(shè)施,以確?蓴U展性和效率。廣泛的評估表明,Kling-Omni在復(fù)雜任務(wù)中取得了最先進(jìn)的性能。展望未來,Kling-Omni代表著構(gòu)建能夠感知、推理、生成并與動態(tài)復(fù)雜世界交互的多模態(tài)世界模擬器的基礎(chǔ)性一步。

參考文獻(xiàn)

[1] Kling-Omni Technical Report

       原文標(biāo)題 : 超越Veo和Runway!可靈開源Kling-Omni:一個模型通吃視頻生成、剪輯和多模態(tài)推理!

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號