訂閱
糾錯
加入自媒體

僅用1張圖1小時,比肩FLUX.1和Qwen,推理狂飆5倍!Glance用“快慢哲學”顛覆擴散模型!

2025-12-05 16:41
AI生成未來
關注

作者:Zhuobai Dong等

解讀:AI生成未來

亮點直擊

極致高效的訓練:僅需 1 個樣本,在 單張 V100 GPU 上不到 1 小時 即可完成訓練。這與需要數千GPU小時(如 DMD2 需要 3840 小時)的傳統方法形成鮮明對比。

非均勻加速策略:提出了“慢-快”(Slow-Fast)的分階段加速策略,針對擴散模型的語義生成階段和細節(jié)優(yōu)化階段采用不同的加速比,比均勻加速更符合模型特性。

即插即用:無需重新訓練龐大的學生網絡,而是通過兩個輕量級的 LoRA適配器掛載在凍結的基礎模型上實現加速,且具有極強的泛化能力。圖1. 數據使用量與訓練時長對比。Glance僅需1個訓練樣本并在1個GPU小時內即可實現相當的生成質量,展現出極致的數據與計算效率。請注意橫軸采用對數刻度,因此零值無法在圖中直接表示。圖1. 數據使用量與訓練時長對比。Glance僅需1個訓練樣本并在1個GPU小時內即可實現相當的生成質量,展現出極致的數據與計算效率。請注意橫軸采用對數刻度,因此零值無法在圖中直接表示。

解決的問題

推理成本高:擴散模型生成高質量圖像通常需要大量的推理步驟(如 50 步),導致計算成本高昂,限制了應用。

蒸餾成本高昂且難微調:現有的少步數蒸餾方法(如 LCM, DMD2 等)需要昂貴的重新訓練成本和大規(guī)模數據集。此外,直接微調蒸餾后的模型往往會導致生成結果模糊。

泛化性與效率的平衡:如何在極少數據(甚至單樣本)和極低算力下,實現不損失質量的推理加速。圖2:蒸餾與加速策略對比,F有蒸餾流程依賴大規(guī)模訓練集和高成本重復訓練,而Glance僅需單一樣本即可獲得慢速與快速雙適配器,為基礎生成模型提供即插即用的加速方案。圖2:蒸餾與加速策略對比,F有蒸餾流程依賴大規(guī)模訓練集和高成本重復訓練,而Glance僅需單一樣本即可獲得慢速與快速雙適配器,為基礎生成模型提供即插即用的加速方案。

提出的方案

Glance 框架:基于擴散過程包含“早期語義階段”和“晚期冗余階段”的觀察,設計了分階段的加速方案。

Slow-Fast LoRA 專家

Slow-LoRA:在早期階段以較低的倍率加速(保留更多步驟),確保全局結構的準確構建。

Fast-LoRA:在晚期階段以較高的倍率加速(大幅跳步),快速完成紋理細化。

流匹配監(jiān)督:利用流匹配(Flow Matching)目標函數,使 LoRA 適配器直接學習加速后的去噪軌跡速度場。圖3:慢-快范式可視化示意圖。在慢速階段,我們從前20個時間步中每兩步采樣一次(共獲得5個樣本);在快速階段,則從剩余40個步中均勻采樣額外5個時間步。推理過程中,慢速階段的時間步將優(yōu)先于快速階段執(zhí)行。圖3:慢-快范式可視化示意圖。在慢速階段,我們從前20個時間步中每兩步采樣一次(共獲得5個樣本);在快速階段,則從剩余40個步中均勻采樣額外5個時間步。推理過程中,慢速階段的時間步將優(yōu)先于快速階段執(zhí)行。

應用的技術

LoRA (Low-Rank Adaptation) :利用低秩矩陣微調技術,避免全參數訓練,極大降低顯存和計算需求。

Flow Matching (流匹配) :直接回歸目標速度場,相比于分數匹配(Score Matching),在少樣本下能更高效地提取結構知識。

Phase-Aware Strategy (階段感知策略) :基于信噪比或時間步將去噪過程劃分為不同區(qū)域,分別訓練專門的專家模型。

達到的效果

加速比:在 FLUX.1-12B 和 Qwen-Image-20B 模型上實現了 5 倍加速(8-10 步推理)。

質量保持:在 OneIG-Bench、HPSv2 和 GenEval 等基準測試中,性能分別達到教師模型的 92.60%、99.67% 和 96.71%,在視覺質量上幾乎無損。

泛化能力:盡管僅用 1 張圖片訓練,模型在未見過的提示詞和復雜場景(如文字渲染、不同風格)上仍表現出驚人的泛化能力。

方法

Glance,這是一個階段感知(phase-aware)的加速框架,旨在通過“慢-快”(slow-fast)范式同時提高擴散模型的效率和適應性。首先一起回顧下擴散模型和流匹配(flow-matching)的公式作為預備知識,然后描述本文提出的階段感知 LoRA 專家及其學習目標。

預備知識

擴散與流匹配 (Diffusion and Flow Matching)擴散模型通過逐步將噪聲轉化為數據,學習通過參數化的去噪過程來擬合數據分布。流匹配公式將擴散解釋為學習一個連續(xù)的速度場,該場將樣本從高斯噪聲  傳輸到清潔數據 。在時間步  時,中間狀態(tài)定義為 ,模型在給定條件 (例如文本嵌入)的情況下預測傳輸速度 。目標是預測速度與目標速度之間的均方誤差:

其中  是真實速度(groundtruth velocity)。為了獲得卓越的性能,擴散模型通常設計有大量的網絡參數,并在大規(guī)模網絡數據上進行預訓練。顯而易見,為了減少步數而蒸餾如此巨大的模型在計算上是非常昂貴的。

低秩適應 (Low-Rank Adaptation)為了緩解上述困難,LoRA最近被應用于目標數據上的擴散模型快速蒸餾。具體而言,LoRA 引入了一個額外矩陣的低秩分解,,其中  表示凍結的預訓練參數,而低秩矩陣  和 (其中 )構成了可學習的 LoRA 參數。

用于分階段去噪的階段感知 LoRA 專家

為了加速預訓練擴散模型的去噪過程,同時保持生成質量,本文保留了預訓練參數 ,并引入了一種緊湊但有效的增強方案:一組階段特定的 LoRA 適配器(phase-specific LoRA adapters)。每個適配器專門負責去噪軌跡中的特定階段,使模型能夠在推理過程中根據不同的噪聲水平和語義復雜性進行動態(tài)調整。

超越均勻時間步劃分 (Beyond uniform timestep partitioning)先前的工作,如 Timestep Master,已經展示了使用在不同時間步間隔上訓練的多個 LoRA 適配器的潛力。然而,均勻劃分假設所有時間步的貢獻是相等的,這與擴散動力學內在的非均勻性相矛盾。實證分析以及先前的研究揭示了不同的時間步表現出明顯不同的語義重要性水平:在早期的、高噪聲機制中,模型主要重建粗糙的全局結構和高級語義(低頻信息);相比之下,后期的、低噪聲機制則專注于細化紋理和細節(jié)(高頻信息)。

基于 SNR 的階段感知劃分 (Phase-aware partitioning via SNR)為了更好地將專家專業(yè)化與擴散過程的內在動力學對齊,我們引入了一種由信噪比(SNR)指導的階段感知劃分策略。與時間步索引不同,SNR 提供了一個物理上更有意義的信號與噪聲相對主導地位的度量,并且隨著去噪的進行單調遞減。在過程開始時( 較大,高噪聲階段),潛在表示由低 SNR 的噪聲主導,使得粗糙結構恢復成為主要目標。相反,隨著  減小且 SNR 上升,模型過渡到一個專注于紋理細化的低噪聲機制。

基于這一觀察,我們定義了一個對應于 SNR 閾值(例如,初始 SNR 值的一半)的過渡邊界 。然后采用兩個特定階段的專家:一個專門用于高噪聲階段()的慢速專家,專注于粗糙語義重建;以及一個用于低噪聲階段()的快速專家,用于增強細粒度細節(jié)。這種 SNR 引導的劃分允許每個專家在其最有效的機制中運行,形成了去噪過程的語義上有意義的分解。

極小訓練集的驚人有效性 (Surprising effectiveness of extremely small training sets)為了評估分階段 LoRA 是否可以恢復加速推理,我們最初使用僅 10 個訓練樣本進行了一個過擬合風格的實驗。出乎意料的是,模型迅速學習到了加速采樣軌跡的忠實近似。更為顯著的是,將數據集減少到僅單個訓練樣本仍然產生了一種穩(wěn)定的加速行為。

我們將這種數據效率歸因于流匹配(flow matching)的本質。通過直接預測沿擴散軌跡的目標速度場,訓練目標繞過了冗余的分數匹配(score-matching)步驟。因此,即使只有幾個示例,也能從中提取出用于快速推理的基本結構知識。

精心設計的時間步跳過的必要性 (Necessity of carefully designed timestep skipping)盡管這種數據效率前景廣闊,但隨后的消融研究表明,時間步的跳過絕非任意的。雖然少步數的學生模型可以在總體上模仿教師模型的行為,但并非所有時間步對重建動力學的貢獻都是相等的;天真的跳過策略可能會嚴重降低性能。為此,我們對不同的專門化方案進行了全面調查。我們首先探索了為慢速階段 LoRA 適配器分配多個時間步,同時為快速階段保留單個適配器,反之亦然。我們還測試了一種退化配置,即在整個軌跡上訓練單個 LoRA。然而,這些變體要么缺乏表達能力來捕捉高噪聲的復雜性,要么未能利用低噪聲細化階段的時間局部性。

實驗最終表明,將軌跡分離為專用的慢速區(qū)域和專用的快速區(qū)域會產生最穩(wěn)健的專門化效果。這種設計保留了足夠的容量來建模具有挑戰(zhàn)性的高噪聲動力學,同時在后續(xù)步驟中實現輕量級細化,從而實現了一種緊湊而有效的加速機制。

流匹配監(jiān)督 (Flow-matching supervision)每個特定階段的 LoRA 專家都在流匹配監(jiān)督方案下進行訓練,該方案將其預測的去噪方向與底層數據流對齊。給定擴散過程中獲得的噪聲潛在變量 ,模型預測一個速度場 ,該速度場受到真實流向量  的監(jiān)督。訓練目標定義為加權均方誤差:

其中  表示可選的時間步相關加權函數。通過將每個專家的訓練樣本限制在其分配的去噪階段,模型有效地學會了專注于不同的噪聲水平。由此產生的階段感知 LoRA 專家混合體共同提高了去噪速度和生成質量,構成了我們提出的慢-快(slow-fast)范式的基礎。

實驗

本節(jié)介紹了 Glance 在文本到圖像生成任務上的綜合評估。首先報告與競爭基線的定量結果比較,隨后是詳細的消融分析。然后討論模型的泛化行為及其對數據規(guī)模的敏感性。

實驗設置

蒸餾設置 (Distillation Setup)。 將兩個大規(guī)模文本到圖像生成器 FLUX.1-12B和 Qwen-Image-20B蒸餾為緊湊的 Slow-Fast 學生模型。在蒸餾過程中,從教師繼承的基礎參數保持凍結,僅優(yōu)化 LoRA 適配器。遵循 Qwen-Image-Distill-LoRA,將適配器的放置擴展到標準注意力投影之外。具體而言,LoRA 模塊不僅注入到查詢(query)、鍵(key)、值(value)和輸出投影中,還注入到視覺和文本分支的輔助投影層和模態(tài)特定的 MLP 中。這種更廣泛的集成使學生能夠更有效地捕捉跨模態(tài)依賴關系,并在容量緊湊的情況下保持生成保真度。

評估協議 (Evaluation protocol)。 對來自三個不同提示集的高分辨率  圖像生成進行全面評估:(a) 來自 COCO 2014 驗證集的 10K 標題,(b) 來自 HPSv2 基準的 3200 個提示,(c) 來自 OneIG-Bench的 1120 個提示,(d) 來自 GenEval 基準的 553 個提示,(e) 來自 DPG-Bench的 1065 個提示,以及 (f) 來自 LongText-Bench的 160 個提示。對于 COCO 和 HPSv2 集,我們報告常見指標,包括 FID、補丁 FID (pFID)、CLIP 相似度、VQAScore和 HPSv2.1。在 COCO 提示上,FID 是針對真實圖像計算的,反映數據對齊。在 HPSv2 上,CLIP 和 VQAScore 衡量提示對齊,而 HPSv2 捕捉人類偏好對齊。對于 OneIG-Bench、GenEval、DPG-Bench 和 LongText-Bench,采用其官方評估協議并基于其各自的基準指標報告結果。

主要結果

性能曲線:Glance 的性能曲線(圖4)緊密貼合基礎模型,表明加速后的行為高度一致。

定量對比:在 OneIG-Bench、HPSv2 和 GenEval 上,Glance 分別達到了教師模型 92.60%、99.67% 和 96.71% 的性能。即使與需要數千 GPU 小時訓練的方法(如 DMD2, Qwen-Image-Lightning)相比,僅訓練 1 小時的 Glance 也展現出可比甚至更優(yōu)的效果。

視覺質量:定性對比(圖5)顯示,Glance 在 8 步推理下保留了語義完整性,而其他 4 步模型(如 Lightning)可能在細節(jié)上有所欠缺。

消融研究

Slow-Fast 設計:對比了多種時間步分配策略,結果顯示“慢速階段3步 + 快速階段5步”的非對稱配置優(yōu)于均勻分布或單模型配置,證明了針對性加速的必要性。數據規(guī)模:將訓練樣本從 1 個增加到 100 個并未帶來顯著提升,說明數據的質量和階段對齊比單純的數據量更關鍵。時間步覆蓋:更多的 LoRA 適配時間步能帶來更好的文本渲染和整體質量。

結論

Glance框架采用輕量級蒸餾架構,通過相位感知的"慢-快"設計加速擴散模型推理。研究發(fā)現,LoRA適配器能夠有效區(qū)分去噪過程的不同階段,從而高效捕捉全局語義與局部細節(jié)。該框架僅需八步即可實現高質量圖像生成,相比基礎模型獲得5倍加速。盡管僅使用單張圖像和數小時GPU訓練,Glance仍能保持相當的視覺保真度,并對未見提示詞展現出強大泛化能力。這些結果表明,數據與算力高效的蒸餾方法能夠保持大型擴散模型的表現力而不犧牲質量。相信Glance可作為加速大規(guī)模擴散模型的優(yōu)選方案,在數據稀缺場景中尤具應用潛力。

參考文獻

[1] Glance: Accelerating Diffusion Models with 1 Sample

       原文標題 : 僅用1張圖1小時,比肩FLUX.1和Qwen,推理狂飆5倍!Glance用“快慢哲學”顛覆擴散模型!

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號