訂閱
糾錯
加入自媒體

原生多模態(tài)統(tǒng)一架構(gòu)比不過單模態(tài)專家模型?華為團(tuán)隊(duì)出品的EMMA “Say No”

作者:Xin He, Longhui Wei等

解讀:AI生成未來

背景與動機(jī)

當(dāng)前多模態(tài)大模型已經(jīng)成為大模型領(lǐng)域最為重要的研究熱點(diǎn),尤其是隨著OpenAI的GPT-4O展現(xiàn)出極強(qiáng)的多模交互生成能力,以及谷歌GEMINI依靠原生多模架構(gòu)打了一場漂亮的大模型翻身仗,如何構(gòu)建多模態(tài)統(tǒng)一架構(gòu)已經(jīng)成為2025年多模態(tài)大模型領(lǐng)域最為關(guān)心的課題。

盡管構(gòu)建多模態(tài)統(tǒng)一架構(gòu)已經(jīng)成為了業(yè)界幾乎所有大模型研究者的共識,但是如何構(gòu)建多模態(tài)統(tǒng)一架構(gòu)的路線目前仍然未收斂,比如1)直接利用開源的理解或生成專家模型然后中間設(shè)計橋接器來構(gòu)建多模交互能力,典型代表工作比如UniWorldV1, Metaquery, OminiGen2等; 2)架構(gòu)統(tǒng)一并進(jìn)行端到端原生訓(xùn)練以激發(fā)多模能力,但其理解與生成任務(wù)優(yōu)化目標(biāo)不同。代表工作如字節(jié)的BAGEL,Mogao以及Deepseek的JanusFlow 3) 追求完美統(tǒng)一,優(yōu)化目標(biāo)一致,比如EMU系列和D-DiT。但無論哪種路線,圍繞大家心中最為關(guān)鍵的一個問題就是,多模態(tài)統(tǒng)一架構(gòu)所訓(xùn)練激發(fā)的能力到底能不能超過單獨(dú)的多模態(tài)理解或者多模態(tài)生成模型,從而證明多模態(tài)統(tǒng)一架構(gòu)所具備的優(yōu)勢?華為近期發(fā)布的高效多模態(tài)統(tǒng)一架構(gòu)EMMA就給出了相關(guān)答案,是可以的!

先上結(jié)果

我們先來看結(jié)果,一句話總結(jié):EMMA以4B MOE規(guī)模的大小在多模態(tài)理解、生成、編輯等榜單上力壓當(dāng)前各種7B大小的統(tǒng)一架構(gòu)模型,遠(yuǎn)超BAGEL

再來看看與單獨(dú)的專家模型對比。比如在多模態(tài)理解常常測評的11個榜單上,EMMA-4B模型要比Qwen3-VL-4B取得更好的結(jié)果。

同時,在圖像生成GenEval榜單上EMMA也獲得了超高的分?jǐn)?shù)。

具體方法和實(shí)驗(yàn)細(xì)節(jié)

我們來看看EMMA到底通過什么方案來取得這么好的效果呢? 核心方案:

高效壓縮,平衡理解與生成Token;采用32x高效壓縮的生成編碼器,使得與理解分支一致,保證理解與生成的token平衡,這個近期Meta的統(tǒng)一架構(gòu)工作TUNA也提及到理解與生成token平衡。因此,1K分辨率的圖像理解和生成編碼器都會編碼成1024個視覺token。

Token Channel-wise拼接,降低視覺Token數(shù);理解token 和生成token 直接通道拼接而不是token 數(shù)拼接,這樣在做信息融合的時候避免token爆炸,有利于多模交互場景;

采用共享及解耦網(wǎng)絡(luò)機(jī)制;在原生多模知識共享(這點(diǎn)大家可以參考對照生成需要REPA loss)的同時滿足任務(wù)特異性建模(理解語義建模,生成需要語義和高頻信息建模)

理解編碼器siglip2改成專家混合架構(gòu)mixpert,以應(yīng)對多樣的輸入圖像類型。

其整體架構(gòu)圖和訓(xùn)練細(xì)節(jié)如下。 基于上述方案,EMMA在滿足高效的同時(例如編輯任務(wù)降低5倍視覺token)達(dá)到SOTA性能,相較于BAGEL7B有大幅提升。同時相較于Qwen3-VL-4B進(jìn)行了對比在11個理解榜單取得了相當(dāng)甚至更優(yōu)的結(jié)果

可視化結(jié)果

最后我們再來看一些具體的可視化結(jié)果

是不是EMMA的生成能力相當(dāng)能打?

總結(jié)

EMMA通過高效的編碼器設(shè)計融合策略和網(wǎng)絡(luò)結(jié)構(gòu)語義共享及高層任務(wù)解耦機(jī)制,能夠高效地完成原生多模態(tài)統(tǒng)一架構(gòu)訓(xùn)練,最終配合上高質(zhì)量的數(shù)據(jù)工程和訓(xùn)練方案EMMA能夠在多模態(tài)理解、生成及編輯等榜單上大幅超過BAGEL。相較于理解SOTA模型Qwen3-VL-4B以及Qwen-Image也能展現(xiàn)出具備競爭力的結(jié)果。EMMA進(jìn)一步揭示了原生多模態(tài)統(tǒng)一架構(gòu)的潛力,也證明了原生多模態(tài)統(tǒng)一架構(gòu)是能夠超越專有模型的,為后續(xù)多模態(tài)統(tǒng)一架構(gòu)研究奠定堅實(shí)的基礎(chǔ)。

參考文獻(xiàn)

[1] EMMA: Efficient Multimodal Understanding, Generation, and Editing with a Unified Architecture

       原文標(biāo)題 : 原生多模態(tài)統(tǒng)一架構(gòu)比不過單模態(tài)專家模型?華為團(tuán)隊(duì)出品的EMMA “Say No”

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號