訂閱
糾錯(cuò)
加入自媒體

特斯拉再添一把火,「世界模型」如何重塑自動(dòng)駕駛?

作者 |肖恩

編輯 |德新

兩年一度的計(jì)算機(jī)視覺(jué)頂會(huì)ICCV 10月在美國(guó)檀香山閉幕,今年的最佳論文頒給了卡內(nèi)基梅隆大學(xué)團(tuán)隊(duì)的BrickGPT,一種能從文本描述直接生成物理結(jié)構(gòu)穩(wěn)定并可實(shí)際搭建的積木機(jī)構(gòu)模型,這個(gè)成果展示了生成式AI在物理世界應(yīng)用的潛力。

對(duì)自動(dòng)駕駛從業(yè)者而言,這次會(huì)議上還有一個(gè)更令人矚目的消息——特斯拉AI部門副總裁Ashok Elluswamy在“基礎(chǔ)模型蒸餾與自動(dòng)駕駛”論壇中,分享了FSD的最新進(jìn)展。

自2022年在AI Day上分享了占用格柵網(wǎng)絡(luò)之后,特斯拉幾乎沒(méi)有在任何公開場(chǎng)合透露過(guò)FSD的內(nèi)幕,特別是進(jìn)入到端到端架構(gòu)之后,F(xiàn)SD的表現(xiàn)進(jìn)步神速,但是特斯拉對(duì)背后的技術(shù)始終諱莫如深。

Elluswamy此次分享給出了關(guān)鍵信息:系統(tǒng)以視頻為主的多模態(tài)輸入進(jìn)入端到端模型,直接輸出控制指令,感知 - 預(yù)測(cè) - 決策 - 控制在同一神經(jīng)網(wǎng)絡(luò)中耦合回傳;這一整體框架與近期熱議的“世界模型”思想高度相似。同時(shí),在仿真?zhèn)龋澜缒P捅挥糜谏蓪?duì)抗性場(chǎng)景,以實(shí)現(xiàn)閉環(huán)評(píng)測(cè)與迭代。

在此之前,圍繞VLA與世界模型的路線分歧已爭(zhēng)論不休,特斯拉的最新表態(tài)無(wú)疑又添一把火。無(wú)論最終范式如何定型,能夠“想象未來(lái)”的世界模型,幾乎注定將成為當(dāng)下自動(dòng)駕駛技術(shù)演進(jìn)的關(guān)鍵支點(diǎn)。

一、特斯拉FSD:端到端基礎(chǔ)模型與世界模型的融合

Elluswamy以“構(gòu)建未來(lái)的自動(dòng)化”為主題,首先闡述了FSD最近的一些進(jìn)展,包括Robotaxi的上線以及實(shí)現(xiàn)了從工廠到交付中心的全程自動(dòng)駕駛。

隨后,他介紹了特斯拉的端到端架構(gòu),多攝像頭圖像、導(dǎo)航地圖、車輛運(yùn)動(dòng)信息和音頻信號(hào)等輸入到一個(gè)端到端的神經(jīng)網(wǎng)絡(luò)內(nèi),這個(gè)模型經(jīng)過(guò)海量的數(shù)據(jù)訓(xùn)練,支持長(zhǎng)序列的輸入,最后直接輸出控制信號(hào)。

這部分和國(guó)內(nèi)的技術(shù)方向基本一致,唯一的區(qū)別是增加了音頻信號(hào)的輸入。

為什么要使用端到端的架構(gòu),他給出了幾點(diǎn)理由:

人類的駕駛行為很難用函數(shù)去描述,規(guī)則算法很容易顧此失彼;傳統(tǒng)的感知 - 規(guī)劃 - 控制的結(jié)構(gòu)會(huì)有大量的信息損失;端到端的擴(kuò)展性更強(qiáng),更適合解決長(zhǎng)尾問(wèn)題;時(shí)延穩(wěn)定;不需要依賴人類的經(jīng)驗(yàn),而是依靠算力和數(shù)據(jù);

如果要構(gòu)建一套出色的端到端系統(tǒng),會(huì)遇到什么困難?Elluswamy提到了三大難題:

維度災(zāi)難

FSD需要處理高幀率、高分辨率、長(zhǎng)時(shí)上下文的多模態(tài)輸入:在以“5×5 像素塊”為輸入token的假設(shè)下,僅視覺(jué)就相當(dāng)于7個(gè)攝像頭×36 FPS×500萬(wàn)像素×30秒;同時(shí)還要結(jié)合未來(lái)數(shù)英里的導(dǎo)航地圖與路徑、100 Hz的速度/IMU/里程計(jì)等運(yùn)動(dòng)學(xué)數(shù)據(jù),以及48kHz的音頻數(shù)據(jù)。綜合起來(lái)約有20億個(gè)token,如果直接輸入到Transformer,token數(shù)量會(huì)在時(shí)間窗內(nèi)爆炸,無(wú)法滿足車端的時(shí)延要求。

特斯拉的做法是利用海量的車隊(duì)數(shù)據(jù),從中總結(jié)出“關(guān)鍵token”,通過(guò)稀疏化和聚合保留最有用的信息,可在不顯著影響精度的情況下大幅降低推理的時(shí)延。

同時(shí),特斯拉利用數(shù)據(jù)引擎從中抽取高質(zhì)量的數(shù)據(jù)樣本用于訓(xùn)練,讓系統(tǒng)能在各種極端或罕見(jiàn)場(chǎng)景中實(shí)現(xiàn)出色的泛化能力。

可解釋性與安全驗(yàn)證

為了避免“黑箱”AI,特斯拉在車端模型中加入了可解釋的中間輸出,既有全景分割和3D占據(jù)網(wǎng)絡(luò),也有基于三維高斯渲染的場(chǎng)景重建和語(yǔ)言化輸出,從而輔助工程師審視推理過(guò)程。

圖片圖片來(lái)源:特斯拉

其中Elluswamy重點(diǎn)介紹了特斯拉的生成式高斯噴濺(Generative Gaussian Splatting),和傳統(tǒng)的高斯噴濺相比,特斯拉GGS具有更強(qiáng)的泛化能力,生成場(chǎng)景僅需要220毫秒,無(wú)需初始化,可建模動(dòng)態(tài)物體,并能與端到端AI模型聯(lián)合訓(xùn)練。

閉環(huán)評(píng)測(cè)與仿真

最后、也是最具挑戰(zhàn)性的一步,是模型評(píng)估

即使擁有高質(zhì)量的數(shù)據(jù)集,開環(huán)預(yù)測(cè)的損失函數(shù)下降,也未必意味著在真實(shí)世界中能有良好表現(xiàn)。評(píng)估體系必須多樣化且覆蓋不同模式,以支持快速的開發(fā)迭代。

為此,特斯拉開發(fā)了一個(gè)神經(jīng)世界模擬器(Neural World Simulator)。該模擬器基于特斯拉自建的海量數(shù)據(jù)集進(jìn)行訓(xùn)練,但與常規(guī)模型不同,它不是預(yù)測(cè)動(dòng)作,而是根據(jù)當(dāng)前狀態(tài)與下一步動(dòng)作生成未來(lái)狀態(tài)。從而與車端的端到端基礎(chǔ)模型閉環(huán),做真實(shí)效果的評(píng)估。

圖片圖片來(lái)源:特斯拉

神經(jīng)世界模擬器在駕駛策略的指令下,按因果關(guān)系生成可交互的未來(lái):不僅能基于歷史數(shù)據(jù)重放并驗(yàn)證新的駕駛模型,還能系統(tǒng)地合成對(duì)抗性/極端場(chǎng)景,用于長(zhǎng)尾覆蓋與安全邊界測(cè)試。

在工程實(shí)現(xiàn)上,特斯拉也強(qiáng)調(diào)該模擬器可實(shí)時(shí)或近實(shí)時(shí)地產(chǎn)生高分辨率、因果一致的響應(yīng),用于研發(fā)環(huán)節(jié)的快速驗(yàn)證。除此之外,這類視頻生成能力還可在閉環(huán)環(huán)境中進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí),以實(shí)現(xiàn)超越人類水平的表現(xiàn)。

圖片圖片來(lái)源:特斯拉

盡管特斯拉并未在分享中明確使用“世界模型”這一稱呼,但從其神經(jīng)世界模擬器的能力與用法來(lái)看,它本質(zhì)上就是一個(gè)極其強(qiáng)大的世界模型。

與傳統(tǒng)云端世界模型不同,特斯拉的系統(tǒng)不僅具備高保真場(chǎng)景生成能力,更關(guān)鍵的是,它能夠在給定候選動(dòng)作的條件下,預(yù)測(cè)未來(lái)幾秒內(nèi)的世界演化,從而實(shí)現(xiàn)決策前瞻與安全驗(yàn)證。

模型不再只是“生成環(huán)境”,而是能“想象并評(píng)估行動(dòng)結(jié)果”的因果預(yù)測(cè)系統(tǒng)

從特斯拉將“預(yù)測(cè)未來(lái)幾秒的世界演化”作為決策前瞻核心這一點(diǎn)出發(fā),車端基礎(chǔ)模型很可能走的也是世界模型路線:在車端進(jìn)行實(shí)時(shí)的動(dòng)作條件未來(lái)預(yù)測(cè),在云端以神經(jīng)世界模擬器進(jìn)行大規(guī)模場(chǎng)景重現(xiàn)與回歸驗(yàn)證,兩者在目標(biāo)與表征層面高度對(duì)齊,從而形成訓(xùn)練—評(píng)估—上線的一體化閉環(huán)。

二、何為世界模型?

端到端架構(gòu)能為自動(dòng)駕駛帶來(lái)更高的上限,這已經(jīng)是行業(yè)的共識(shí)。但是如何在端到端的框架下讓自動(dòng)駕駛達(dá)到甚至超越人類的駕駛水平,實(shí)現(xiàn)真正的無(wú)人駕駛,目前還沒(méi)有一個(gè)明確的方向,在多種技術(shù)路線中,世界模型無(wú)疑是其中重要的一支。

圖片圖片來(lái)源:World Models for Autonomous Driving: An Initial Survey

世界模型并沒(méi)有一個(gè)標(biāo)準(zhǔn)的定義,但業(yè)內(nèi)逐漸形成了對(duì)它的共識(shí),世界模型是一個(gè)生成式時(shí)空神經(jīng)系統(tǒng),它將來(lái)自攝像頭、激光雷達(dá)、雷達(dá)和導(dǎo)航地圖等多模態(tài)輸入壓縮成潛在狀態(tài),該狀態(tài)不僅編碼了幾何、語(yǔ)義信息,還攜帶因果上下文。

世界模型可以在潛在空間內(nèi)推演環(huán)境未來(lái),并讓智能體在執(zhí)行動(dòng)作前“演練”整個(gè)軌跡。正因如此,有人將世界模型形象地稱為能夠在腦海里“想象未來(lái)”的模型。

世界模型通常覆蓋三類任務(wù):

未來(lái)物理世界生成:基于傳感器數(shù)據(jù)和車輛歷史,生成場(chǎng)景的未來(lái)演化(包括物體運(yùn)動(dòng)、占據(jù)概率、點(diǎn)云或圖像級(jí)視頻)。行為規(guī)劃與決策:結(jié)合預(yù)測(cè)結(jié)果為自車生成軌跡或動(dòng)作建議,實(shí)現(xiàn)決策與控制。聯(lián)合預(yù)測(cè)與規(guī)劃:在潛在空間內(nèi)同時(shí)建模多主體交互,利用生成的未來(lái)對(duì)候選動(dòng)作進(jìn)行評(píng)估,從而實(shí)現(xiàn)閉環(huán)的行為優(yōu)化。

它不僅是感知或預(yù)測(cè)模塊的簡(jiǎn)單堆疊,而是一個(gè)統(tǒng)一的大腦:它將現(xiàn)實(shí)世界壓縮成可演化的內(nèi)部表示,并通過(guò)生成式推演支撐規(guī)劃與決策。它需要具備以下核心能力:

潛在時(shí)空表示

世界模型首先要將高維、多模態(tài)感知輸入映射到一個(gè)低維的潛在狀態(tài)。這一潛在表示既要包含環(huán)境中的幾何、語(yǔ)義信息,又要隨時(shí)間更新,使模型能夠在此空間內(nèi)捕捉環(huán)境狀態(tài)的轉(zhuǎn)移。該能力意味著模型不再依賴顯示的BEV或占據(jù)柵格,而是以更加抽象但富含語(yǔ)義的形式表示“世界”。

動(dòng)作條件的未來(lái)推演

在潛在狀態(tài)獲得之后,世界模型必須能夠在給定候選動(dòng)作(加速、制動(dòng)、變道等)的條件下,生成多步未來(lái)場(chǎng)景。這種生成不僅僅是時(shí)間上的外推,更是“假如我采取這個(gè)動(dòng)作,其他道路參與者會(huì)如何反應(yīng)、場(chǎng)景會(huì)如何變化”的因果推理。換言之,它不只是預(yù)測(cè)“將會(huì)發(fā)生什么”,更要回答“如果我這樣做,會(huì)發(fā)生什么”。

與規(guī)劃和控制的閉環(huán)耦合

世界模型的重要特征在于預(yù)測(cè)與規(guī)劃的深度耦合。模型生成的未來(lái)場(chǎng)景不僅提供參考,而是直接用于評(píng)估不同動(dòng)作的風(fēng)險(xiǎn)和收益,從而在潛在空間中完成候選動(dòng)作的比較—篩選—決策。這種閉環(huán)能力使世界模型能夠在端到端框架中直接輸出控制信號(hào),就像特斯拉的“神經(jīng)世界模擬器”那樣,能在閉環(huán)仿真中評(píng)估新模型、生成對(duì)抗場(chǎng)景,并進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)來(lái)獲得超越人類的性能。

多主體交互與不確定性建模

真實(shí)的道路中不僅有自車,還有別的車和行人,大家的運(yùn)動(dòng)狀態(tài)會(huì)互相影響。世界模型要在“腦海里的狀態(tài)空間”里,把這些參與者的位置、速度、意圖表示出來(lái),并且隨著時(shí)間跟蹤他們彼此之間的互動(dòng)。

同時(shí),現(xiàn)實(shí)中的未來(lái)不是只有唯一的答案:前車可能并線,也可能減速。所以模型不能只給一條“最可能的軌跡”,而要給出一組可能的未來(lái),讓系統(tǒng)在安全、效率、舒適之間做權(quán)衡。

長(zhǎng)期記憶與自我演化

世界模型應(yīng)當(dāng)具有長(zhǎng)期記憶和自我進(jìn)化能力——能夠積累駕駛經(jīng)驗(yàn)、持續(xù)擴(kuò)充其內(nèi)部世界,并在不同任務(wù)和場(chǎng)景間遷移。這使它不僅適用于某條路線或某種條件,而是可在多種條件下泛化。

正是世界模型強(qiáng)大的能力,讓它成為現(xiàn)在自動(dòng)駕駛領(lǐng)域最熱門的研究方向之一,很多人相信世界模型是通往L3和L4級(jí)別自動(dòng)駕駛的關(guān)鍵鑰匙

三、中國(guó)的世界模型之路

作為自動(dòng)駕駛技術(shù)應(yīng)用最廣泛的中國(guó),世界模型已經(jīng)生根發(fā)芽,既有像商湯這樣專注于云端,為自動(dòng)駕駛補(bǔ)充合成數(shù)據(jù)的技術(shù)公司,也有像蔚來(lái)和華為這樣堅(jiān)定的讓世界模型上車的整車廠。在中國(guó),世界模型正扮演著越來(lái)越重要的角色。

蔚來(lái)NWM世界模型

蔚來(lái)汽車是較早公開將世界模型作為核心技術(shù)路線的公司之一。在2024年“NIO IN”發(fā)布會(huì)上,蔚來(lái)宣布了中國(guó)首個(gè)駕駛世界模型“NWM(Nio World Model)”,蔚來(lái)將其定義為“能夠全量理解多模態(tài)信息、生成新場(chǎng)景并預(yù)測(cè)未來(lái)的多元自回歸生成模型”。

圖片圖片來(lái)源:蔚來(lái)

它在空間上完成“想象重建”(將感知到的物理世界逼真地重建為可編輯的虛擬世界),在時(shí)間上完成“想象推演”(在內(nèi)部時(shí)空中滾動(dòng)預(yù)演不同未來(lái)),進(jìn)而輸出可執(zhí)行的軌跡與動(dòng)作。并展示了其在車端的應(yīng)用。NWM可在100毫秒內(nèi)推理216種可能的駕駛場(chǎng)景 并選取最優(yōu)決策。蔚來(lái)官方表示,模型可以用3秒的歷史視頻提示生成長(zhǎng)達(dá)20秒的未來(lái)視頻;世界模型通過(guò)生成式推演形成所謂“平行世界”,在這些想象出的未來(lái)中評(píng)估不同動(dòng)作的后果。除了純視覺(jué)輸入,NWM還融合激光雷達(dá)、地圖和自車運(yùn)動(dòng)信息,并能理解駕駛員的語(yǔ)言指令。

圖片圖片來(lái)源:蔚來(lái)

蔚來(lái)在云端開發(fā)了NSim作為生成式神經(jīng)模擬器,NWM基于真實(shí)視頻進(jìn)行三維重建后,進(jìn)入NSim進(jìn)行可編輯的場(chǎng)景分解、深度與法向量檢查、視角任意切換,并把NWM的推演軌跡與NSim的仿真結(jié)果對(duì)齊比對(duì),從“唯一真實(shí)軌跡的回放評(píng)測(cè)”升級(jí)為“海量平行世界的對(duì)照評(píng)測(cè)”,以此形成數(shù)據(jù)閉環(huán)和針對(duì)性對(duì)抗場(chǎng)景的生成。再結(jié)合蔚來(lái)的“群體智能”源源不斷的收集真實(shí)世界中的長(zhǎng)尾場(chǎng)景,形成雙輪驅(qū)動(dòng),加速模型迭代。

NWM的首個(gè)版本已于今年6月推送,在主動(dòng)安全方面新增3大功能:

駕駛員失能處置

在高速/快速路場(chǎng)景,監(jiān)測(cè)到駕駛員無(wú)意識(shí)后,車輛緩慢減速并變道至最右側(cè)應(yīng)急車道,開啟雙閃 + SOS主動(dòng)介入,由“車道內(nèi)安全停車”升級(jí)為“自主安全靠邊”,顯著降低在車道內(nèi)停車帶來(lái)的追尾風(fēng)險(xiǎn)。

追尾預(yù)防與保護(hù)(首次將大模型用于被追尾場(chǎng)景)

在0–150km/h 范圍內(nèi)對(duì)后向潛在碰撞進(jìn)行警示;當(dāng)碰撞不可避免時(shí),系統(tǒng)在500ms內(nèi)完成從感知決策到制動(dòng)建壓,最大可將被動(dòng)前移距離降低93%,減少二次事故風(fēng)險(xiǎn)。

通用障礙物預(yù)警增強(qiáng)

在轉(zhuǎn)彎、變道靠邊等動(dòng)作中,對(duì)抬桿/護(hù)墻/隔離柵/路沿等多類型障礙均可響應(yīng),減少低速靠邊剮蹭、車庫(kù)盤樓剮蹭等常見(jiàn)事故。

高速領(lǐng)航新增了ETC場(chǎng)景智能通行和“智能駕享模式”(行車風(fēng)格更穩(wěn)健,跟車/變道更平順、更強(qiáng)的防御性駕駛,必要時(shí)可自主閃燈/鳴笛提醒周邊車輛)。

城區(qū)點(diǎn)到點(diǎn)領(lǐng)航新增2大功能:

車位收藏:停車后可收藏畫線車位,下次出發(fā)或駛?cè)霑r(shí)實(shí)現(xiàn)無(wú)間斷全域領(lǐng)航;若被占用,系統(tǒng)自動(dòng)尋找臨近空位臨時(shí)泊入。停車場(chǎng)自主尋路:無(wú)需地圖/導(dǎo)航/記憶路線,可聽懂自然語(yǔ)義指令、識(shí)別標(biāo)識(shí)與文字,實(shí)現(xiàn)跨區(qū)/跨樓層尋找出口或樓棟門口。這是NWM認(rèn)知—理解—推理能力在復(fù)雜微結(jié)構(gòu)空間里的標(biāo)志性落地。

智能泊車更新為全模型化泊車輔助,360°全向車位識(shí)別、車位顯示范圍×4,可在任意位置發(fā)起泊入指令并長(zhǎng)距離漫游泊車,在不同車位間自動(dòng)騰挪切換;只要不被墻體完全阻隔,就能實(shí)現(xiàn)“可見(jiàn)即可選、可選即可泊”。

NWM的成功量產(chǎn)以及對(duì)智駕功能的全面升級(jí),體現(xiàn)了世界模型在車端巨大的潛力。

華為WEWA 架構(gòu)

在圍繞世界模型的技術(shù)路線爭(zhēng)論中,作為國(guó)內(nèi)智駕領(lǐng)域的”帶頭大哥“,華為給出的答案是“WA(WorldAction)”——一種強(qiáng)調(diào)直接感知到控制的世界模型路線。

圖片圖片來(lái)源:華為

華為智能汽車解決方案BU總裁靳玉志公開表示,公司不會(huì)追隨VLA的潮流,而是堅(jiān)持以傳感器信號(hào)直接驅(qū)動(dòng)動(dòng)作的世界行動(dòng)模型。

在華為看來(lái),VLA利用大語(yǔ)言模型將視頻轉(zhuǎn)化為“語(yǔ)言 token”再生成控制命令,看似是捷徑,實(shí)則不能提供真正的自主能力;只有跳過(guò)語(yǔ)言層,直接從視覺(jué)、聲音等多模態(tài)感知信息生成駕駛指令,才能在空間感知和實(shí)時(shí)性上滿足高級(jí)自動(dòng)駕駛要求。

華為的ADS 4平臺(tái)基于WA原則進(jìn)一步演化出 WEWA(World Engine + World Action)架構(gòu):

World Engine(云端世界引擎)在云端通過(guò)海量仿真與實(shí)車數(shù)據(jù)訓(xùn)練世界模型,并生成用于升級(jí)的模型參數(shù)。World Action(車端世界行動(dòng)模型)在車輛側(cè)運(yùn)行,將感知數(shù)據(jù)直接映射為控制動(dòng)作,跳過(guò)語(yǔ)言解析過(guò)程。

WEWA省略了語(yǔ)言層避免了抽象化損失,并通過(guò)多顆激光雷達(dá)和高性能硬件確保模型獲得盡可能完整的環(huán)境信息。這樣雖然硬件成本更高,但靳玉志認(rèn)為這是實(shí)現(xiàn)安全可靠自動(dòng)駕駛的唯一道路。

華為強(qiáng)調(diào),真正的世界模型不僅限于仿真,而是支撐車輛實(shí)時(shí)決策的核心。在WEWA架構(gòu)中,云端的World Engine使用大量仿真和實(shí)車數(shù)據(jù)對(duì)模型進(jìn)行“夢(mèng)境訓(xùn)練”,學(xué)習(xí)環(huán)境的演化規(guī)律并生成優(yōu)化后的參數(shù);這些參數(shù)通過(guò)OTA下發(fā)到車端的World Action模型,使車輛在物理一致的“世界表示”上直接規(guī)劃和控制。為了獲得盡可能完整的環(huán)境感知,華為在車端使用多顆激光雷達(dá)和高性能硬件,在最新的問(wèn)界M9和尊界S800上,已經(jīng)開始使用4個(gè)激光雷達(dá)的方案。

靳玉志強(qiáng)調(diào),這條路線雖然成本更高,但能夠提供更強(qiáng)的空間理解和決策可靠性,是華為走向高級(jí)自動(dòng)駕駛的唯一道路。

商湯絕影:“開悟”世界模型與生成式仿真平臺(tái)

商湯科技旗下的自動(dòng)駕駛品牌絕影智駕推出了世界模型“開悟”并用于大規(guī)模仿真數(shù)據(jù)生成。2025年世界人工智能大會(huì)(WAIC)上,絕影發(fā)布了升級(jí)版的交互式世界模型產(chǎn)品平臺(tái),以及業(yè)內(nèi)最大規(guī)模的生成式駕駛數(shù)據(jù)集WorldSimDrive。這一平臺(tái)基于先進(jìn)世界模型技術(shù),具備對(duì)物理規(guī)律的理解和對(duì)場(chǎng)景元素的控制能力,是面向車企和開發(fā)者開放試用的可交互產(chǎn)品。

圖片圖片來(lái)源:商湯絕影

與蔚來(lái)的車端世界模型不同,絕影的“開悟”主要用于生成高保真仿真數(shù)據(jù)。開悟可在仿真場(chǎng)景中生成11個(gè)攝像頭視角的時(shí)空一致視頻,時(shí)長(zhǎng)可達(dá)150秒,分辨率達(dá)到專業(yè)級(jí)1080p。用戶可以在平臺(tái)上自由編輯場(chǎng)景的道路布局、參與體、天氣和光照等元素,一鍵生成風(fēng)險(xiǎn)極高的場(chǎng)景或多樣化組合。當(dāng)前,絕影正與上汽旗下的智己汽車合作,利用這個(gè)平臺(tái)構(gòu)建端到端數(shù)據(jù)工廠,針對(duì)加塞、追尾等高價(jià)值場(chǎng)景批量生成訓(xùn)練數(shù)據(jù),并計(jì)劃推出覆蓋數(shù)百萬(wàn)合成片段的場(chǎng)景庫(kù)。

在數(shù)據(jù)規(guī)模和效率方面,WorldSimDrive數(shù)據(jù)集包含超過(guò)100萬(wàn)段生成式駕駛片段,覆蓋50多種天氣與光照條件、200類交通標(biāo)識(shí)和300種道路連接場(chǎng)景,是迄今最大的自動(dòng)駕駛生成數(shù)據(jù)集之一。這些合成數(shù)據(jù)保持多視角時(shí)空一致性,時(shí)長(zhǎng)可達(dá)數(shù)分鐘,畫質(zhì)與真實(shí)數(shù)據(jù)一致。開悟的日生產(chǎn)能力僅用一塊A100 GPU就相當(dāng)于10輛真實(shí)車輛或100臺(tái)道路測(cè)試車輛的數(shù)據(jù)采集能力。目前,絕影已有20%的訓(xùn)練數(shù)據(jù)來(lái)自世界模型生成。

商湯絕影通過(guò)“開悟”世界模型搭建了數(shù)字世界到真實(shí)世界的橋梁:一方面在仿真平臺(tái)上支持文本或圖像提示,快速生成特定場(chǎng)景;另一方面與車企合作打造閉環(huán)數(shù)據(jù)工廠,用合成數(shù)據(jù)彌補(bǔ)長(zhǎng)尾場(chǎng)景不足。

開悟的成功展示了世界模型在仿真數(shù)據(jù)生成中的力量,不僅降低數(shù)據(jù)采集成本,還能針對(duì)高風(fēng)險(xiǎn)場(chǎng)景進(jìn)行定制化訓(xùn)練,為自動(dòng)駕駛提供可靠、安全的測(cè)試和訓(xùn)練環(huán)境。

四、世界模型 VS VLA:自動(dòng)駕駛終局路線之爭(zhēng)

隨著大模型時(shí)代的到來(lái),以語(yǔ)言大模型LLM為核心的視覺(jué)-語(yǔ)言-行動(dòng)(VLA)模型開始在自動(dòng)駕駛領(lǐng)域嶄露頭角,理想、小米和元戎都是堅(jiān)定的VLA路線擁護(hù)者,在今年7月理想已經(jīng)開始率先推送量產(chǎn)的VLA版本。

VLA倡導(dǎo)將視覺(jué)輸入、自然語(yǔ)言理解與行動(dòng)生成融為一個(gè)大模型,通過(guò)語(yǔ)言增強(qiáng)情境理解和推理能力。和世界模型相比存在顯著差異:

結(jié)構(gòu)與表示

世界模型采用潛在時(shí)空表示,核心是一個(gè)可以隨時(shí)間演化的物理世界模擬器。它通過(guò)自監(jiān)督壓縮器將感知數(shù)據(jù)編碼為潛在狀態(tài),并依靠生成式預(yù)測(cè)模塊在該狀態(tài)上演化未來(lái)VLA模型則以 視覺(jué)—語(yǔ)言—行動(dòng)統(tǒng)一架構(gòu)為特征。它引入大型語(yǔ)言模型為大腦,將高維視覺(jué)感知映射為自然語(yǔ)言表述,并利用語(yǔ)言鏈?zhǔn)酵评韥?lái)生成決策或動(dòng)作指令。VLA模型能夠在車輛控制前進(jìn)行語(yǔ)言層面的推理和解釋,使系統(tǒng)兼具快速反射和慢速思考的雙系統(tǒng)。

推理路徑

世界模型的推理依賴動(dòng)作條件的內(nèi)在仿真:模型將候選動(dòng)作注入潛在世界,生成不同未來(lái)場(chǎng)景,再用代價(jià)函數(shù)或風(fēng)險(xiǎn)評(píng)價(jià)選擇最佳動(dòng)作。這種推理方式像是在腦海中做實(shí)驗(yàn),因此非常適合物理世界中的對(duì)抗和長(zhǎng)期評(píng)估。VLA的推理則依賴語(yǔ)言鏈路:VLA利用大型語(yǔ)言模型的常識(shí)和邏輯推理能力,通過(guò)自然語(yǔ)言對(duì)觀察到的場(chǎng)景進(jìn)行解釋、制定規(guī)則,然后輸出控制信號(hào)。這賦予系統(tǒng)更強(qiáng)的可解釋性,但其物理推理通常依賴外部模塊。。

能力與應(yīng)用

世界模型著重于長(zhǎng)時(shí)域、多主體和物理一致性。它可以生成復(fù)雜環(huán)境的長(zhǎng)期演化,捕捉稀有事件、他車互動(dòng)和路況變化,并在潛在空間中形成真實(shí)動(dòng)作反饋。由于這種閉環(huán)特性,世界模型成為評(píng)估和優(yōu)化自動(dòng)駕駛策略的核心,如特斯拉的神經(jīng)世界模擬器通過(guò)閉環(huán)仿真生成對(duì)抗場(chǎng)景、進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。VLA模型更強(qiáng)調(diào)語(yǔ)義推理與高層交互。它通過(guò)語(yǔ)言接口理解自然語(yǔ)言指令、交通規(guī)則和場(chǎng)景描述,具備鏈?zhǔn)剿伎寄芰。VLA可以利用互聯(lián)網(wǎng)規(guī)模的語(yǔ)言數(shù)據(jù)注入常識(shí),支持復(fù)雜推理和解釋。

“世界模型VS VLA”的路線之爭(zhēng)仍將持續(xù)。世界模型更貼近自動(dòng)駕駛的物理本質(zhì),VLA則憑借通識(shí)能力在長(zhǎng)尾場(chǎng)景上具優(yōu)勢(shì)。最終的產(chǎn)業(yè)答案,很可能來(lái)自兩者的互補(bǔ)與融合。

最近AI領(lǐng)域的先驅(qū)李飛飛發(fā)表長(zhǎng)文討論空間智能,她認(rèn)為今天的大語(yǔ)言模型擅長(zhǎng)抽象知識(shí)處理,但在物理世界上仍像“黑暗中的文字匠”,缺乏對(duì)三維環(huán)境、因果與動(dòng)力學(xué)的扎實(shí)理解,難以安全地在現(xiàn)實(shí)世界中行動(dòng)。通過(guò)想象、推理、創(chuàng)造與互動(dòng)來(lái)理解世界,而非僅僅依賴語(yǔ)言描述,這正是空間智能的力量。

實(shí)現(xiàn)空間智能的答案是“世界模型”,能夠在語(yǔ)義、物理、幾何與動(dòng)態(tài)等多重復(fù)雜世界(無(wú)論虛擬還是現(xiàn)實(shí))中進(jìn)行理解、推理、生成與交互。

她的觀點(diǎn)再次將世界模型推向AI領(lǐng)域的前沿,無(wú)論最終實(shí)現(xiàn)自動(dòng)駕駛的技術(shù)路徑是什么,在通往終點(diǎn)的路上,世界模型一定會(huì)留下濃墨重彩的一筆。

       原文標(biāo)題 : 特斯拉再添一把火,「世界模型」如何重塑自動(dòng)駕駛?

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)