訂閱
糾錯
加入自媒體

端到端自動駕駛的前世今生:不管VLA還是WM世界模型,都需要世界引擎。

2025-09-10 14:00
vehicle公眾號
關注

2025年的CVPR自動駕駛Workshop上,香港大學的Li Hongyang做了一篇名為《自動駕駛端到端方法:現狀與展望》的開場演講。

演講給了端到端一個定義,并介紹了端到端的前世今生,以及挑戰(zhàn),最后提出“世界引擎”(World Engine)的概念、最新進展(包括三個具體工作)、以及該領域的一些關鍵挑戰(zhàn)。

本文根據Li Hongyang的演講內容,結合自動駕駛開發(fā)應用的現狀,給一些概念性的總結,結合他說的端到端1.5時代的兩個分支,大膽的給當前VLA和WM下一個概念結論,最后回歸到Li Hongyang的主旨,端到端都需要一個世界引擎。

端到端自動駕駛的定義

端到端自動駕駛的定義是“學習一個單一模型,直接將原始傳感器輸入映射到駕駛場景并輸出控制指令”。它用一個統(tǒng)一的函數取代了傳統(tǒng)的模塊化管道。

這里的“函數”意味著給定觀察(例如圖像、點云或車輛信息)或目標,模型直接輸出控制指令(例如轉向、剎車或油門)。

訓練流程非常簡單,可以是通過大量標注的SL監(jiān)督學習、IL模仿學習,或者通過設計獎勵的 RL強化學習。

所以,其實端到端是自動駕駛算法里面最廣的一個概念,不管現在的VLA還是世界模型都是屬于端到端的一種。

端到端自動駕駛的發(fā)展路線圖

從20多年前簡單的黑白圖像輸入開始。

多年來,出現了許多方法,可以分為條件模仿學習、泛化、Andrew Gigard團隊的可解釋性網絡(使用多模態(tài)),以及PPJL、Soft ACT、ACO等在預訓練階段的工作。

直到最近,出現了一些明確設計模塊的顯式方法,例如包含目標跟蹤、地圖和運動規(guī)劃的模塊,這就是模塊化端到端規(guī)劃與基礎模型時代

而現在我們正處于“1.5代”的端到端自動駕駛的尾巴上。之所以稱為“1.5代”,我們已進入基礎模型(Foundation Models)時代,正在解決一些長尾問題(corner cases)。1.5端到端時代,我們有兩個分支:

一個涉及擴散(Diffusion)或使用擴散管道以及世界模型的分支?梢钥吹较馜rive Dreamer、Cosmos Predict One和導航世界模型。Gaia 2也是一個視頻生成模型,旨在實現更安全的輔助和自動化駕駛。這些模型利用多視圖圖像和不同的動作來預測不同類型的視頻,以生成真實感和多樣性。這個分枝可以總結為world model世界模型分枝。

另外一條分枝是基于大型語言模型(LLMs)的應用。例如,Java LM提出了一種“草圖維基”方式,以更好地理解駕駛場景。還有Lingo Tool和早期的工作Job VRM,后者被認為是自動駕駛雙系統(tǒng)的一個非常早期工作,它利用了基礎模型更高的準確性,但缺點是延遲較高。因此,較小的模型可以預測大多數情況,并與基礎模型協同工作。這個可以認為為現在VLM/VLA分支。

有了這兩種方法論之后,Li Hongyang認為端到端開始步入第二代,目前,自動駕駛研究已進入第二階段,需要處理大量的生產問題和工程工作。

有了端到端的架構,接下來就是大量的數據去訓模型,下圖為一個典型的訓練和部署管道,包括數據收集(通常由專家駕駛)、訓練(在固定的日志和回放數據上),以及評估和從推理中獲得反饋,然后收集更多接管和不良數據。

真實世界部署的挑戰(zhàn)

我們能否收集所有情況或極端情況,并最終將其真正轉化為L4或L5級別的產品。

Li Hongyang引用了一個他非常喜歡的網站——特斯拉FSD追蹤器,該網站主要收集北美城市中大量的客戶數據。網站的實時圖顯示了特斯拉FSD在不同版本下“每次接管跑的公里數”(MPI)指標的年度變化,可以看到MPI在增加,這是一個非常有前景的積極信號,說明數據量的增加確實可以讓端到端大模型無限接近自動駕駛。

但是,問題來了

看下圖右側,X軸表示正常駕駛和安全關鍵或瀕臨事故事件,隨著駕駛里程累計,就可能會發(fā)生事故。

Y軸有兩個,黑色曲線表示每英里發(fā)生危險情況的概率,紅色曲線表示部署成本。隨著大多數感知問題已經解決,遇到挑戰(zhàn)性案例的概率變得非常罕見。但此時,部署成本變得非常昂貴,因為需要龐大的車隊來收集所有危險案例。

剩余20%的長尾問題需要海量數據。原因是,有價值的極端情況變得越來越稀有,而收集危險駕駛數據可能會危及生命。

于是 Li Hongyang提出了一個“世界引擎”(World Engine)概念,可以解決這些挑戰(zhàn)。

其核心思想是從人類專家駕駛中學習。該策略仍是任意的端到端規(guī)劃算法,例如UniAD或V-AD等。通過與環(huán)境交互(可以稱之為世界模型或與環(huán)境互動),給定當前的提示或動作(例如右轉),我們希望從失敗中學習,并改進當前的端到端規(guī)劃器,使其適應生產環(huán)境。關鍵問題是如何生成這些有價值的極端情況。這主要是由兩部分組成:

極端情況生成(從原始數據中的源場景生成安全關鍵場景),這大大節(jié)省了沒有龐大車隊時的成本。

這在行為層面上對模型進行建模,基本意味著給定軌跡,之后要對環(huán)境與自車之間的行為進行建模。然后,一旦有了軌跡,就需要渲染這些內容,這就是所謂的生成或渲染視頻,即傳感器仿真。

有了這么一個數據引擎(Data Engine),就可以來生成大量的極端情況場景,用于訓練。

Li Hongyang提出還有一個算法引擎(Algorithm Engine),它沒有在這里繪制,因為它仍在開發(fā)中。

有了數據引擎和算法引擎,他們共同構成了“世界引擎”的整個管道,之后可以用于改進和訓練任意的端到端算法,幫助自動駕駛達成。

寫在最后

其實最近,VLA和WM世界模型打的火熱,說實話如果從詞的概念上來講,WM這個瓶子更大,能裝的概念更多,但也意味著更能糊弄。

Jack認為 VLA應該是目前比較切合實際和看得到路徑的方法,WM應該是終極目標,但目前國內提這個概念的公司多多少少都是想占領詞匯和用戶心智高地,其實瓶子里面裝的是啥,多半夸張。

參考文章以及圖片

*未經準許嚴禁轉載和摘錄-

       原文標題 : 端到端自動駕駛的前世今生:不管VLA還是WM世界模型,都需要世界引擎。

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號