訂閱
糾錯(cuò)
加入自媒體

重磅!阿里達(dá)摩院發(fā)布首個(gè)VLA與世界模型統(tǒng)一架構(gòu)RynnVLA-002:97.4%成功率刷新認(rèn)知

作者:Jun Cen等

解讀:AI生成未來

亮點(diǎn)直擊

統(tǒng)一架構(gòu)RynnVLA-002,這是一個(gè)將視覺-語言-動(dòng)作(VLA)模型與世界模型統(tǒng)一在單一框架中的“動(dòng)作世界模型”。

雙向增強(qiáng):實(shí)現(xiàn)了 VLA 與世界模型的互補(bǔ)——世界模型利用物理規(guī)律優(yōu)化動(dòng)作生成,而 VLA 增強(qiáng)了視覺理解以支持更精準(zhǔn)的圖像預(yù)測(cè)。

混合動(dòng)作生成策略:針對(duì)離散動(dòng)作生成的誤差累積問題,提出了“動(dòng)作注意力掩碼”策略;針對(duì)實(shí)機(jī)操作的平滑性與泛化性問題,引入了連續(xù)的 Action Transformer 頭。

卓越性能:在 LIBERO 仿真基準(zhǔn)測(cè)試中,在無預(yù)訓(xùn)練的情況下達(dá)到了 97.4% 的成功率;在真實(shí)世界 LeRobot 實(shí)驗(yàn)中,集成世界模型使整體成功率提升了50%。

解決的問題

本工作主要針對(duì)現(xiàn)有架構(gòu)的以下局限性進(jìn)行改進(jìn):

VLA 模型的缺陷

動(dòng)作理解不足:動(dòng)作僅作為輸出存在,缺乏內(nèi)部的顯式表征。

缺乏想象力:無法預(yù)測(cè)動(dòng)作執(zhí)行后的世界狀態(tài)演變,缺乏前瞻性。

缺乏物理常識(shí):無法內(nèi)化物體交互、接觸或穩(wěn)定性等物理動(dòng)力學(xué)。

世界模型的缺陷:無法直接生成動(dòng)作輸出,存在功能鴻溝,限制了其在顯式動(dòng)作規(guī)劃場(chǎng)景中的應(yīng)用。

自回歸動(dòng)作生成的缺陷:離散動(dòng)作生成容易產(chǎn)生誤差傳播(Error Propagation),且在真實(shí)機(jī)器人上容易出現(xiàn)抖動(dòng)且泛化性差。圖1(a) VLA 模型根據(jù)對(duì)圖像的理解生成動(dòng)作;(b) 世界模型根據(jù)對(duì)圖像和動(dòng)作的理解生成圖像;(c) 動(dòng)作世界模型將對(duì)圖像和動(dòng)作的理解與生成統(tǒng)一起來。圖1(a) VLA 模型根據(jù)對(duì)圖像的理解生成動(dòng)作;(b) 世界模型根據(jù)對(duì)圖像和動(dòng)作的理解生成圖像;(c) 動(dòng)作世界模型將對(duì)圖像和動(dòng)作的理解與生成統(tǒng)一起來。

提出的方案

本工作提出了 RynnVLA-002,這是一個(gè)自回歸的動(dòng)作世界模型。

統(tǒng)一詞表:使用三個(gè)獨(dú)立的 Tokenizer 分別對(duì)圖像、文本和動(dòng)作進(jìn)行編碼,并共享同一個(gè)詞表,使得不同模態(tài)可以在同一個(gè) LLM 架構(gòu)下統(tǒng)一進(jìn)行理解和生成。

聯(lián)合訓(xùn)練:模型既可以作為 VLA 根據(jù)觀察生成動(dòng)作,也可以作為世界模型根據(jù)動(dòng)作預(yù)測(cè)未來圖像。

混合生成機(jī)制:保留離散聯(lián)合建模的同時(shí),加入了一個(gè)連續(xù)的 Action Transformer 頭,以適應(yīng)真實(shí)世界的連續(xù)控制需求。

應(yīng)用的技術(shù)

基礎(chǔ)架構(gòu):初始化自 Chameleon 模型(一種統(tǒng)一圖像理解與生成的模型)。

Tokenization(分詞技術(shù))

圖像:使用 VQ-GAN,壓縮率 16,碼本大小 8192。

文本:BPE Tokenizer。

動(dòng)作/狀態(tài):將連續(xù)維度離散化為 256 個(gè) bin。

動(dòng)作注意力掩碼(Action Attention Masking):在離散動(dòng)作生成中,通過修改 Attention Mask,使得當(dāng)前動(dòng)作僅依賴于文本和視覺輸入,而無法看到之前的動(dòng)作 Token,從而阻斷自回歸過程中的誤差累積。

Action Transformer:引入一個(gè)連續(xù)動(dòng)作頭(類似于 ACT),通過并行解碼生成平滑的動(dòng)作軌跡,解決離散模型的過擬合與抖動(dòng)問題。

達(dá)到的效果

仿真實(shí)驗(yàn)(LIBERO)RynnVLA-002-Continuous 取得了 97.4% 的平均成功率,在 Spatial、Object、Goal 和 Long 任務(wù)上均表現(xiàn)優(yōu)異。優(yōu)于 OpenVLA、SpatialVLA、 等強(qiáng)基線模型,且無需大規(guī)模機(jī)器人操作預(yù)訓(xùn)練數(shù)據(jù)。

真機(jī)實(shí)驗(yàn)(LeRobot SO100):在干擾物(Distractors)和多目標(biāo)(Multi-Target)場(chǎng)景下表現(xiàn)出極強(qiáng)的魯棒性。相比 GR00T N1.5 和 ,在復(fù)雜場(chǎng)景下的成功率高出 10% 到 30%。

互補(bǔ)驗(yàn)證:消融實(shí)驗(yàn)證明,引入世界模型數(shù)據(jù)訓(xùn)練顯著提升了 VLA 的操作成功率(尤其是抓取任務(wù)),反之 VLA 數(shù)據(jù)也提升了世界模型的視頻生成質(zhì)量。

方法框架

概覽

RynnVLA-002 的整體架構(gòu)旨在統(tǒng)一體現(xiàn)式 AI 的兩大基礎(chǔ)模型:

VLA 模型:策略  根據(jù)語言目標(biāo) 、本體感知狀態(tài)  和歷史觀測(cè)  生成動(dòng)作 :

世界模型:模型  根據(jù)過去觀測(cè)和動(dòng)作預(yù)測(cè)下一個(gè)觀測(cè) :

本工作混合了 VLA 模型數(shù)據(jù)和世界模型數(shù)據(jù)來訓(xùn)練 RynnVLA-002,這是一個(gè)整合模型 ,共享參數(shù)組 。這種雙重特性使得模型可以根據(jù)用戶查詢,靈活地作為 VLA 或世界模型運(yùn)行。

RynnVLA-002 概覽。RynnVLA-002 在訓(xùn)練過程中涉及 VLA 模型數(shù)據(jù)和世界模型數(shù)據(jù)。RynnVLA-002 概覽。RynnVLA-002 在訓(xùn)練過程中涉及 VLA 模型數(shù)據(jù)和世界模型數(shù)據(jù)。

數(shù)據(jù)Tokenization

Tokenizers:模型初始化自 Chameleon。涉及四種 Tokenizer:圖像、文本、狀態(tài)和動(dòng)作。

圖像:使用 VQ-GAN,并增加了針對(duì)特定區(qū)域(如人臉、顯著物體)的感知損失。圖像被編碼為離散 Token( 圖像對(duì)應(yīng) 256 個(gè) Token)。

文本:BPE Tokenizer。

狀態(tài)與動(dòng)作:將機(jī)器人本體狀態(tài)和動(dòng)作的每個(gè)連續(xù)維度離散化為 256 個(gè)區(qū)間(bin)之一。

詞表:所有模態(tài)的 Token 共享一個(gè)大小為 65536 的詞表。連續(xù)動(dòng)作則通過 Action Transformer 生成原始數(shù)值,不進(jìn)行 Token 化。

VLA 模型數(shù)據(jù)結(jié)構(gòu)

Token 序列為 {text} {state} {image-front-wrist} {action}。模型根據(jù)指令、狀態(tài)和  個(gè)歷史圖像生成  個(gè)動(dòng)作塊(Action Chunk)。

世界模型數(shù)據(jù)結(jié)構(gòu): Token 序列為 {text} {images-front-wrist} {action} {images-front-wrist}。任務(wù)是根據(jù)當(dāng)前圖像和動(dòng)作生成下一幀圖像。文本前綴統(tǒng)一為“Generate the next frame based on the current image and the action.”。

訓(xùn)練目標(biāo):混合兩種數(shù)據(jù)進(jìn)行訓(xùn)練,總損失函數(shù)為 。

動(dòng)作塊生成

離散動(dòng)作塊的注意力掩碼 (Attention Mask for Discrete Action Chunk) : 為了提高效率和成功率,模型需要生成多個(gè)動(dòng)作。然而,傳統(tǒng)的自回歸方式會(huì)導(dǎo)致誤差傳播,即早期動(dòng)作的錯(cuò)誤會(huì)影響后續(xù)動(dòng)作。為此,本工作設(shè)計(jì)了一種特定的 動(dòng)作注意力掩碼 (Action Attention Mask)(如圖 3(b) 所示)。該掩碼確當(dāng)前動(dòng)作的生成僅依賴于文本和視覺輸入,而禁止訪問先前的動(dòng)作 Token。這種設(shè)計(jì)使得自回歸框架能夠獨(dú)立生成多個(gè)動(dòng)作,有效緩解了誤差累積問題。

連續(xù)動(dòng)作塊的 Action Transformer (Action Transformer for Continuous Action Chunk) : 盡管離散模型在仿真中表現(xiàn)尚可,但在真實(shí)世界中由于光照、物體位置等動(dòng)態(tài)變量,表現(xiàn)不佳且動(dòng)作不平滑。為此,本工作增加了一個(gè) Action Transformer 模塊:

原理:處理完整的上下文(語言、圖像、狀態(tài) Token),并利用可學(xué)習(xí)的 Action Queries 并行輸出整個(gè)動(dòng)作塊(Action Chunk)。

優(yōu)勢(shì):架構(gòu)更緊湊,不易在有限數(shù)據(jù)上過擬合;并行生成所有動(dòng)作,推理速度顯著快于順序生成的自回歸基線;生成的軌跡更平滑穩(wěn)定。

損失函數(shù):使用 L1 回歸損失 。

最終總損失函數(shù)

實(shí)驗(yàn)

指標(biāo) (Metrics)本工作的評(píng)估分為兩部分。為了評(píng)估 VLA 模型,本工作測(cè)量其在每個(gè)任務(wù) 50 次部署展示(rollout)中的成功率,每次都在不同的狀態(tài)下初始化。為了評(píng)估世界模型,本工作使用四個(gè)標(biāo)準(zhǔn)指標(biāo)在保留驗(yàn)證集上測(cè)量其視頻預(yù)測(cè)準(zhǔn)確性:Fréchet 視頻距離 (FVD)、峰值信噪比 (PSNR)、結(jié)構(gòu)相似性指數(shù) (SSIM) 和學(xué)習(xí)感知圖像塊相似度 (LPIPS)。

基準(zhǔn)測(cè)試結(jié)果 (Benchmark Results)本工作分別評(píng)估了離散動(dòng)作和連續(xù)動(dòng)作的性能。如下表1 所示,本工作的 RynnVLA-002 在離散動(dòng)作下達(dá)到了 93.3% 的高成功率,在連續(xù)動(dòng)作下達(dá)到了 97.4% 的高成功率,證明了本工作核心設(shè)計(jì)原則的有效性:聯(lián)合學(xué)習(xí) VLA 建模和世界建模、用于離散動(dòng)作生成的注意力掩碼(attention mask)機(jī)制,以及添加的連續(xù)動(dòng)作 Transformer (Action Transformer)。令人驚訝的是,即使沒有任何預(yù)訓(xùn)練,本工作的 RynnVLA-002 仍然與在 LIBERO-90 或大規(guī)模真實(shí)機(jī)器人數(shù)據(jù)集上預(yù)訓(xùn)練的強(qiáng)基線模型表現(xiàn)相當(dāng)。

真實(shí)世界機(jī)器人結(jié)果

數(shù)據(jù)集 (Datasets)

本工作整理了一個(gè)使用 LeRobot SO100 機(jī)械臂收集的新真實(shí)世界操作數(shù)據(jù)集。所有軌跡均通過人類遠(yuǎn)程操作獲得的專家演示。本工作定義了兩個(gè)抓取和放置任務(wù)進(jìn)行評(píng)估: (1) 將方塊放入圓圈內(nèi):強(qiáng)調(diào)基本的物體檢測(cè)和抓取執(zhí)行(248 個(gè)演示); (2) 將草莓放入杯子中:需要細(xì)粒度的定位和抓取點(diǎn)預(yù)測(cè)(249 個(gè)演示)。

基線 (Baselines)

本工作與兩個(gè)強(qiáng)大的開源基線進(jìn)行了比較:GR00T N1.5 和  。對(duì)于這兩種方法,本工作從官方預(yù)訓(xùn)練檢查點(diǎn)進(jìn)行初始化,并在用于本模型的同一 SO100 數(shù)據(jù)集上對(duì)其進(jìn)行微調(diào)。本工作采用這些基線官方代碼庫中的相同配方進(jìn)行微調(diào)。

評(píng)估 (Evaluation)

如圖 4 所示,本工作的評(píng)估涵蓋三種場(chǎng)景:

單目標(biāo)操作 (Single-target) :桌面上僅有一個(gè)目標(biāo)物體;

多目標(biāo)操作 (Multi-target) :存在多個(gè)目標(biāo)物體;

帶干擾物的指令跟隨 (Instruction-following with distractors) :目標(biāo)物體和干擾物同時(shí)出現(xiàn)。

如果機(jī)器人在預(yù)定義的時(shí)間預(yù)算內(nèi)將至少一個(gè)目標(biāo)物體放入指定位置,則視為試驗(yàn)成功。如果發(fā)生以下情況,則試驗(yàn)失。(1) 超出時(shí)間限制;(2) 機(jī)器人在一個(gè)目標(biāo)上累計(jì)超過五次連續(xù)的抓取失敗嘗試;(3) 在帶干擾物的指令跟隨設(shè)置中,智能體嘗試操作任何干擾物體。每個(gè)任務(wù)測(cè)試 10 次,本工作報(bào)告成功率。

結(jié)果

下表 2 展示了真實(shí)世界機(jī)器人的實(shí)驗(yàn)結(jié)果。RynnVLA-002 在沒有預(yù)訓(xùn)練的情況下,取得了與 GR00T N1.5和  具有競(jìng)爭(zhēng)力的結(jié)果。值得注意的是,RynnVLA-002 在雜亂環(huán)境中的表現(xiàn)優(yōu)于基線。例如,在“放置方塊”任務(wù)的多目標(biāo)任務(wù)和充滿干擾物的場(chǎng)景中,RynnVLA-002 的成功率均超過 80%,超過基線 10% 到 30%。

消融實(shí)驗(yàn)

世界模型反哺 VLA:在 LIBERO 上,加入世界數(shù)據(jù)后,離散動(dòng)作平均成功率從 62.8% → 78.1%;真實(shí)機(jī)器人若缺世界數(shù)據(jù),成功率直接掉至 30% 以下。可視化發(fā)現(xiàn),聯(lián)合訓(xùn)練后機(jī)械臂會(huì)“主動(dòng)重試”抓取,說明其對(duì)物體動(dòng)態(tài)關(guān)注度更高。

VLA 反哺世界模型:混合訓(xùn)練后的世界模型在 FVD、PSNR、SSIM、LPIPS 上持平或優(yōu)于純 World 模型;視頻可視化顯示,基線世界模型常漏預(yù)測(cè)“碗被成功抓起”的關(guān)鍵幀,而本文模型能準(zhǔn)確生成抓取過程中的接觸與抬升。

離散動(dòng)作 token 的預(yù)訓(xùn)練作用:把離散動(dòng)作 token 作為連續(xù)頭的輔助輸入,可顯著加速收斂(圖 8)。

腕部相機(jī) & 本體狀態(tài):在真實(shí)場(chǎng)景缺一不可;缺失時(shí)任一組件都會(huì)導(dǎo)致抓取時(shí)機(jī)錯(cuò)誤或完全失敗。

效率與 chunk 長(zhǎng)度:連續(xù)動(dòng)作推理頻率幾乎隨 chunk 長(zhǎng)度線性增長(zhǎng),48 Hz 下仍保持 97% 成功率;離散動(dòng)作通過 chunking 也能將單步 2.5 Hz 提升到 3.7 Hz。

世界模型預(yù)訓(xùn)練:先純粹用世界數(shù)據(jù)預(yù)訓(xùn)練 1 階段,再切入 VLA 任務(wù),可將“Goal”類任務(wù)從 67.3% 提升到 73.1%,驗(yàn)證“物理知識(shí)冷啟動(dòng)”對(duì)后續(xù)策略學(xué)習(xí)有效。

總結(jié)

RynnVLA-002,一個(gè)統(tǒng)一的框架,它將 VLA 和世界模型集成在一起,并證明了它們之間能夠相互增強(qiáng)。通過這一貢獻(xiàn),本工作旨在為具身智能(Embodied AI)研究社區(qū)提供一種具體的方法論,以實(shí)現(xiàn) VLA 與世界模型之間的協(xié)同作用。此外,本工作相信這項(xiàng)研究有助于為跨越文本、視覺和動(dòng)作的多模態(tài)理解與生成奠定統(tǒng)一的基礎(chǔ)。

參考文獻(xiàn)

[1] RynnVLA-002: A Unified Vision-Language-Action and World Model

       原文標(biāo)題 : 重磅!阿里達(dá)摩院發(fā)布首個(gè)VLA與世界模型統(tǒng)一架構(gòu)RynnVLA-002:97.4%成功率刷新認(rèn)知

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)