訂閱
糾錯(cuò)
加入自媒體

徹底告別VAE!清華x可靈聯(lián)手開源SVG-T2I:生成理解合二為一,性能媲美SD3

作者:Minglei Shi等

解讀:AI生成未來

亮點(diǎn)直擊

首次在視覺特征模型(VFM)特征空間上對文本到圖像的隱擴(kuò)散模型進(jìn)行了大規(guī)模驗(yàn)證。

開源了SVG-T2I模型的完整訓(xùn)練與推理流程,并提供多個(gè)尺寸的預(yù)訓(xùn)練權(quán)重,以促進(jìn)后續(xù)研究。

總結(jié)速覽

解決的問題

核心挑戰(zhàn):視覺基礎(chǔ)模型雖然在理解與感知上表現(xiàn)出色,但其表征空間尚未被充分用于大規(guī)模、高質(zhì)量的視覺生成

研究空白:在VFM特征空間內(nèi)端到端地訓(xùn)練大規(guī)模文本到圖像生成模型是一個(gè)未經(jīng)充分探索的領(lǐng)域,缺乏相關(guān)驗(yàn)證和可行的方案。

提出的方案

模型創(chuàng)新:提出了SVG-T2I模型,作為對SVG框架的規(guī);瘮U(kuò)展。

技術(shù)路線:將標(biāo)準(zhǔn)的文本到圖像隱擴(kuò)散模型流程直接應(yīng)用于VFM的特征域中,實(shí)現(xiàn)從文本到VFM特征再到圖像的生成通路。

應(yīng)用的技術(shù)

基礎(chǔ)模型:視覺基礎(chǔ)模型(VFM),作為核心的視覺表征來源。

生成架構(gòu):文本到圖像的隱擴(kuò)散模型框架。

訓(xùn)練方法:在VFM特征空間內(nèi)進(jìn)行大規(guī)模訓(xùn)練。

達(dá)到的效果

性能驗(yàn)證:在標(biāo)準(zhǔn)評測基準(zhǔn)(GenEval和DPG-Bench)上取得了具有競爭力的分?jǐn)?shù)(0.75和85.78),首次在較大規(guī)模上實(shí)證了VFM表征用于生成任務(wù)的可行性與潛力。

開源貢獻(xiàn):完整開源了包括自編碼器、生成模型、訓(xùn)練/推理/評估流程及多尺寸預(yù)訓(xùn)練權(quán)重的全套項(xiàng)目,為后續(xù)研究提供了重要基礎(chǔ)和工具,降低了該領(lǐng)域的研究門檻。

路徑探索:為“表征驅(qū)動(dòng)的視覺生成”這一統(tǒng)一技術(shù)路徑提供了一個(gè)成功的實(shí)踐案例和可擴(kuò)展的框架。

方法

SVG-T2I 成功地將原始 SVG 框架擴(kuò)展到大規(guī)模、高分辨率的文本到圖像合成,從而產(chǎn)生了 SVG-T2I 模型。

用于視覺生成的自監(jiān)督表示

SVG證明了在高維 VFM 特征空間中實(shí)現(xiàn)高質(zhì)量圖像重建和類別到圖像生成的可能性。在此基礎(chǔ)上,SVG-T2I 將該方法擴(kuò)展到大規(guī)模文本到圖像訓(xùn)練,從而能夠直接在 VFM 特征域中進(jìn)行有效生成。SVG-T2I 的整體架構(gòu)如下圖2所示。

SVG-T2I 自動(dòng)編碼器。 繼承自 SVG和 RAE的架構(gòu)設(shè)計(jì),本工作發(fā)布了兩種自動(dòng)編碼器配置,以促進(jìn)社區(qū)研究。第一種是 autoencoder-P (Pure),它直接利用凍結(jié)的 DINOv3 特征。第二種是 autoencoder-R (Residual),它保留了 SVG 中的殘差分支設(shè)計(jì)作為可選方案。當(dāng)需要更高的保真度時(shí),此殘差模塊(基于 Vision Transformer)旨在補(bǔ)償高頻細(xì)節(jié)和偏色偽影。兩種變體都使用相同的解碼器設(shè)計(jì),將特征映射回像素空間。

SVG-T2I DiT。 使用 Unified Next-DiT架構(gòu)作為骨干網(wǎng)絡(luò),它將文本和圖像標(biāo)記視為聯(lián)合序列,從而實(shí)現(xiàn)自然的跨模態(tài)交互并允許無縫的任務(wù)擴(kuò)展。Unified Next-DiT 架構(gòu)是一種可擴(kuò)展的單流變體,類似于最先進(jìn)的開源基于 VAE 的文本到圖像模型 Z-Image中使用的架構(gòu)。本工作采用這種單流設(shè)計(jì)以實(shí)現(xiàn)更高的參數(shù)效率,并聯(lián)合處理文本和 DINO 特征。本文直接在高維 VFM (DINOv3) 特征空間上訓(xùn)練骨干網(wǎng)絡(luò),使用方程 (2) 中定義的流匹配目標(biāo)函數(shù)。在本文的框架中,使用 DINOv3-ViT-S/16+ 編碼器,它將 H × W × 3 圖像映射到 (H/16) × (W/16) × 384 特征表示。

SVG-T2I 訓(xùn)練流程。 訓(xùn)練分兩個(gè)階段進(jìn)行。在第一階段,本文從頭開始單獨(dú)訓(xùn)練 autoencoder-P 和 autoencoder-R。具體來說,autoencoder-R 通過重建損失和其殘差分支上的分布匹配策略以及遵循SVG的解碼器進(jìn)行優(yōu)化。在第二階段,本文訓(xùn)練配備 autoencoder-P 的 SVG-T2I DiT,遵循漸進(jìn)式調(diào)度(參見訓(xùn)練細(xì)節(jié))。

將 SVG 擴(kuò)展到更高分辨率

SVG和 RAE主要關(guān)注在低分辨率設(shè)置下在 VFM 表示空間中學(xué)習(xí)生成擴(kuò)散模型。本工作通過研究 SVG 在高分辨率生成中的行為和有效性來擴(kuò)展這一研究方向。

本文觀察到從 DINOv3 特征重建圖像時(shí)存在明顯的與分辨率相關(guān)的行為,如下圖3所示。雖然低分辨率輸入的重建在精細(xì)結(jié)構(gòu)上存在退化,但高分辨率輸入會(huì)產(chǎn)生明顯更詳細(xì)和忠實(shí)的結(jié)果。這表明 DINOv3 表示本質(zhì)上能夠有效地在高分辨率下保留詳細(xì)的視覺線索。至關(guān)重要的是,這種能力表明 DINOv3 編碼器本身足以進(jìn)行高分辨率重建,從而無需輔助殘差編碼器。此外,與其他混合架構(gòu)相比,僅依賴 VFM 表示提供了一種更通用和可重用的范式。受表示充分性和對流線型、多功能框架的渴望的推動(dòng),本工作將原始 SVG 自動(dòng)編碼器中的殘差編碼器配置為可選,并在高分辨率重建或生成期間將其省略。

實(shí)驗(yàn)

本文通過廣泛的實(shí)驗(yàn)驗(yàn)證了所提出的 SVG-T2I 的可行性和有效性。

模型訓(xùn)練

SVG-T2I 自動(dòng)編碼器訓(xùn)練細(xì)節(jié)。 自動(dòng)編碼器采用漸進(jìn)式策略進(jìn)行訓(xùn)練。首先,模型在 ImageNet (數(shù)據(jù) A) 上以 256×256 的固定分辨率預(yù)訓(xùn)練 40 個(gè) epoch。然后,在多分辨率微調(diào)階段,本文使用來自 3M 樣本數(shù)據(jù)集 (數(shù)據(jù) B) 的原始分辨率圖像繼續(xù)訓(xùn)練。在此階段,模型以 512×512 的錨定分辨率訓(xùn)練 10M 圖像,然后以 1024×1024 訓(xùn)練額外的 6M 圖像。訓(xùn)練的超參數(shù)設(shè)置可參考下表7。

SVG-T2I DiT 訓(xùn)練細(xì)節(jié)。 本文采用 Lumina-Image-2.0 中的 Unified Next-DiT 架構(gòu)作為擴(kuò)散 transformer 的骨干網(wǎng)絡(luò)。對于文本條件,本文利用 Gemma2-2B 大型語言模型來提取豐富的文本嵌入,該模型具有強(qiáng)大的多語言能力。本文將最大文本標(biāo)記長度設(shè)置為 256,以平衡前三個(gè)階段的長字幕建模能力和訓(xùn)練效率。在高質(zhì)量數(shù)據(jù)調(diào)整狀態(tài)下,最大文本標(biāo)記長度設(shè)置為 512。數(shù)據(jù) C、D、E 中的每張圖像都標(biāo)注了三種長度(短、中、長)的雙語字幕(中文和英文)。在訓(xùn)練過程中,本文采用混合采樣策略,選擇字幕語言和長度。短、中、長字幕的采樣概率如下表1所示,語言采樣比例固定為中文 0.2,英文 0.8。

本工作使用多階段漸進(jìn)式訓(xùn)練策略來訓(xùn)練配備 autoencoder-P 的 SVG-T2I。在前兩個(gè)階段,模型在 60M 樣本 (數(shù)據(jù) C) 上以低分辨率和中分辨率進(jìn)行訓(xùn)練,以建立魯棒的文本-圖像對齊并捕獲低頻結(jié)構(gòu)。在第三階段,本文將學(xué)習(xí)到的知識(shí)轉(zhuǎn)移到更高分辨率,使模型能夠使用 15M 樣本 (數(shù)據(jù) D) 細(xì)化細(xì)粒度視覺細(xì)節(jié)。在最后階段,SVG-T2I 在 1M 高質(zhì)量美學(xué)樣本 (數(shù)據(jù) E) 上進(jìn)行微調(diào),以進(jìn)一步增強(qiáng)其合成逼真和視覺吸引力輸出的能力。如下圖5所示,視覺質(zhì)量在各個(gè)階段穩(wěn)步提高。訓(xùn)練的超參數(shù)設(shè)置可參考下表8。

主要結(jié)果

評估。 本文通過定量和定性指標(biāo)評估了 SVG-T2I。本文報(bào)告了 GenEval和 DPG-Bench的性能,以根據(jù)其官方協(xié)議評估 SVG-T2I 的全方位能力。所有用于評估的圖像均以 1024 × 1024 的高分辨率生成。本文的 SVG-T2I 模型成功地?cái)U(kuò)展了 VFM 表示范式,實(shí)現(xiàn)了大規(guī)模 T2I 生成,并在這兩個(gè)基準(zhǔn)上取得了有競爭力的性能。在 GenEval(如下表5所示)上,本文的最終模型 SVG-T2I 總體得分為 0.74,與 SD3-Medium等模型的性能相匹配,并顯著超越了 SDXL和 DALL-E 2。此外,在 DPG-Bench(如下表6所示)上,SVG-T2I 總體得分為 85.78,在統(tǒng)計(jì)上與 FLUX.1和 HiDream-I1-Full等頂級基于 VAE 的擴(kuò)散模型相當(dāng)。

分析

當(dāng)前 VFM 特征的局限性。 現(xiàn)有自監(jiān)督學(xué)習(xí)方法生成的表示捕獲了高級語義上下文和細(xì)粒度視覺細(xì)節(jié),為下游重建和生成提供了強(qiáng)大的基礎(chǔ)。原則上,這些表示在很大程度上是自給自足的。然而,當(dāng)訓(xùn)練范式涉及多種輸入分辨率時(shí),這種自給自足性受到嚴(yán)峻挑戰(zhàn)。如下圖4所示,VAE 特征表現(xiàn)出幾乎與分辨率無關(guān)的行為。它們的跨分辨率余弦相似度接近 1.0,而 DINOv3 和 DINOv2 特征則變化更大。這一觀察結(jié)果表明,VFM 派生特征在不同尺度上經(jīng)歷了不可忽略的偏移。

當(dāng) VFM 編碼器在不同絕對分辨率的輸入中使用固定補(bǔ)丁或感受野大小(例如,16×16)時(shí),每個(gè)補(bǔ)丁的語義粒度和有效壓縮比隨尺度系統(tǒng)地變化:低分辨率圖像上的補(bǔ)丁聚合了場景的更大一部分,產(chǎn)生強(qiáng)壓縮、細(xì)節(jié)貧乏的特征;高分辨率圖像上的相同補(bǔ)丁大小捕獲更精細(xì)、主要是局部紋理和結(jié)構(gòu)細(xì)節(jié)。由于 VFM 編碼器通常經(jīng)過優(yōu)化以生成語義區(qū)分性標(biāo)記,而不是保留統(tǒng)一的局部細(xì)節(jié),因此它們對語義/紋理平衡中這種與尺度相關(guān)的變化特別敏感。相比之下,以重建為導(dǎo)向的編碼器(例如,VAE)不明確考慮每個(gè)編碼區(qū)域中存在的語義內(nèi)容;相反,它們主要旨在捕獲足夠的局部信息以進(jìn)行像素級重建,從而導(dǎo)致表示容量的分配更均勻且分辨率更穩(wěn)定。

因此,對于用于擴(kuò)散建模的語義視覺編碼器而言,保持穩(wěn)定的跨分辨率行為成為一個(gè)重要的優(yōu)化目標(biāo)。訓(xùn)練流程可能需要包含鼓勵(lì)一致特征幾何并幫助保持跨尺度細(xì)粒度細(xì)節(jié)保真度的機(jī)制。

SVG-T2I 的局限性。 盡管 SVG-T2I 在各種場景中都表現(xiàn)出強(qiáng)大的生成能力,但仍存在一些局限性。如下圖6所示,該模型偶爾難以生成高度詳細(xì)的人臉,特別是在需要細(xì)粒度空間一致性的區(qū)域,例如眼睛、眉毛。同樣,解剖學(xué)上準(zhǔn)確的手指生成仍然具有挑戰(zhàn)性,這是生成模型中常見的故障模式,當(dāng)姿勢復(fù)雜性增加時(shí),通常會(huì)導(dǎo)致形狀扭曲或拓?fù)洳徽_。SVG-T2I 在文本渲染方面也表現(xiàn)出有限的可靠性。這些缺點(diǎn)主要源于訓(xùn)練語料庫中此類細(xì)粒度案例的覆蓋不足,以及建模高頻模式和精確幾何關(guān)系所需的大量計(jì)算需求。解決這些局限性可能需要更專業(yè)的數(shù)據(jù)集和額外的訓(xùn)練計(jì)算。

結(jié)論

本文成功地將原始 SVG 框架擴(kuò)展到大規(guī)模、高分辨率的文本到圖像合成,從而產(chǎn)生了 SVG-T2I 模型。這項(xiàng)工作驗(yàn)證了從頭開始訓(xùn)練基于 VFM 表示的高質(zhì)量 T2I 模型的可能性,其生成指標(biāo)與現(xiàn)代先進(jìn)方法相當(dāng),并展示了 VFM 語義空間作為高分辨率合成有效潛在流形的潛力。為了促進(jìn)進(jìn)一步研究和確?芍噩F(xiàn)性,本工作已完全開源了訓(xùn)練、推理和評估代碼以及模型權(quán)重,希望能夠惠及學(xué)術(shù)界。然而,在研究過程中,本文也發(fā)現(xiàn)了一個(gè)關(guān)鍵挑戰(zhàn):現(xiàn)有 VFM 編碼器(例如 DINOv2 和 DINOv3)在以不同輸入分辨率編碼相同圖像時(shí),會(huì)產(chǎn)生內(nèi)部一致性較差的表示。這種依賴于分辨率的特征不穩(wěn)定性直接損害了 T2I 模型在各種尺寸下進(jìn)行泛化和保持生成質(zhì)量的能力,這強(qiáng)調(diào)了未來研究需要關(guān)注尺度不變性。總而言之,本文認(rèn)為,如這項(xiàng)工作所示,戰(zhàn)略性地使用和改進(jìn)強(qiáng)大的 VFM 潛在空間,為實(shí)現(xiàn)各種視覺任務(wù)的真正統(tǒng)一表示提供了一個(gè)非常有前景的途徑。

參考文獻(xiàn)

[1] SVG-T2I: SCALING UP TEXT-TO-IMAGE LATENT DIFFUSION MODEL WITHOUT VARIATIONAL AUTOENCODER

       原文標(biāo)題 : 徹底告別VAE!清華x可靈聯(lián)手開源SVG-T2I:生成理解合二為一,性能媲美SD3

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)