訂閱
糾錯
加入自媒體

中國公司開團,挑戰(zhàn)最強具身智能大腦

編者按:具身智能并非單一技術(shù)的突破,而是一場由資本、工程與場景合力推動的全球浪潮。這正如五百年前的地理大發(fā)現(xiàn),我們正在智能的驅(qū)動下,重新繪制物理世界的邊界。

星河頻率特別策劃「具身智能大航海」系列文章,立足全球視野,錨定通用機器人、陪伴機器人、機器狗、機器人大模型等核心賽道,深度剖析行業(yè)內(nèi)的頭號玩家們。

以「大航海」為名,記錄探索者們?nèi)绾务{馭算法、硬件與資本的浪潮,尋找屬于自己的新大陸。

正如每一次大航海都重塑世界格局,具身智能的征程也在重新定義機器與人的關(guān)系、技術(shù)與社會的關(guān)系。在這個系列里,我們不僅關(guān)注誰能率先靠岸,更關(guān)心誰在指引航向、如何穿越泡沫、何處才有真正值得登陸的未來。

往期文章:《具身智能百億俱樂部,全球已有 10 位玩家》《「中國版 Figure AI」,殺出四位候選玩家》

作者 | 毛心如

時隔 7 個月,Physical Intelligence 接連放出兩條重磅消息:先是推出了新模型 π*0.6,隨后又宣布完成 6 億美元的新一輪融資。

繼 4 月份發(fā)布的π0.5 讓機器人在陌生環(huán)境里做家務(wù)后,新一代的 π*0.6 進一步具備了更智能的自我進化能力。

為實現(xiàn)這一突破,PI 團隊采用了一種名為 Recap 的全新方法,該方法基于優(yōu)勢條件策略,通過經(jīng)驗回放與糾錯機制進行強化學(xué)習(xí),從而對原有的端到端 VLA 模型進行了升級。

Recap 融合了三個類似人類的學(xué)習(xí)階段:初始演示、機器人出錯時的實時專家糾正,以及通過自主試驗中的強化學(xué)習(xí)進行自我改進。

這有效解決了模仿學(xué)習(xí)在機器人學(xué)中的關(guān)鍵缺陷:避免小錯誤在現(xiàn)實世界交互中像滾雪球一樣累積,從而降低可靠性。

從結(jié)果來看,π*0.6 在處理高難度任務(wù)時,吞吐量翻倍,故障率降低了 2 倍以上。機器人甚至能數(shù)小時不間斷連續(xù)運行,挑戰(zhàn)包括全天 18 小時內(nèi)制作意式濃縮咖啡、在新的家庭環(huán)境里折疊 50 件新衣物等等。

從π0 到π0.5 再到這次的π*0.6,Physical Intelligence 展示了一套極為清晰的范式:

先用大規(guī)模跨機器人數(shù)據(jù),教會機器人「會干活」

再用異構(gòu)同訓(xùn),讓它能在陌生環(huán)境里也能「看懂局」

最后把機器人丟回現(xiàn)實世界里,讓它通過糾錯和自我練級,慢慢長成一個 Embodied Agent

這次升級十分迅速,不少科研人士表示,剛開源的π0.5 還沒玩透徹,又出了 0.6。

毫不夸張的講,在具身智能行業(yè),Physical Intelligence 是造機器人大腦領(lǐng)域當(dāng)之無愧的佼佼者,甚至有公司直接對其開源模型進行微調(diào),再對外宣稱是「技術(shù)升級」。

在這一背景下,也有四家中國公司在今年模型性能的對外宣傳上直接對標了 PI,分別是星海圖、自變量機器人、智平方和千訣科技。

行業(yè)頭部 PI,天然的參照系

截至目前,在這場以中美為核心的具身智能競賽里,美國的 Figure AI 以 390 億美元的估值位列全球第一,緊隨其后的 Physical Intelligence,估值已達 56 億美元。

作為被 OpenAI、紅杉資本以及亞馬遜創(chuàng)始人貝索斯共同押注的公司,Physical Intelligence 已經(jīng)收獲了 10.7 億美元的融資。

與 Figure AI 以及中國的頭部公司打造全棧式軟硬一體的產(chǎn)品路線不同,Physical Intelligence 選擇只做機器人大腦。

選擇這樣獨特的路徑離不開其創(chuàng)始團隊強悍的學(xué)術(shù)背景。

團隊 5 名核心成員中,1 名是知名科技投資人,另外 4 名則是來自斯坦福、加州伯克利等名校的科學(xué)家,曾深度參與過谷歌 RT 系列機器人模型研發(fā)、谷歌 Aloha 機器人等項目。

作為初創(chuàng)公司,Physical Intelligence 選擇聚焦軟件,是想通過提供通用的機器人智能解決方案,快速適配不同硬件和應(yīng)用場景,實現(xiàn)技術(shù)的規(guī)模化應(yīng)用。

PI 團隊認為,行業(yè)的真正瓶頸在軟件而不在硬件,專注軟件更能集中資源攻克算法和數(shù)據(jù)難題。

現(xiàn)階段,PI 模型展示采用「機械臂+輪式」的機器人形態(tài),這被團隊視為現(xiàn)有技術(shù)中比較成熟,且具備完成復(fù)雜任務(wù)基礎(chǔ)能力的硬件組合。

盡管成立不足兩年,PI 已經(jīng)發(fā)布了端到端 VLA 模型 π0、π0.5 和 π*0.6。前兩款模型都已經(jīng)開源,其中 π0 更是被稱為開源領(lǐng)域最強的 VLA 模型之一。

π0 和π0.5 同樣作為端到端 VLA 模型,核心區(qū)別主要在架構(gòu)設(shè)計、訓(xùn)練策略和泛化能力上。

π0 采用的是 VLM+Action Expert 的基礎(chǔ)架構(gòu),前者負責(zé)理解場景和指令,后者通過流匹配技術(shù)預(yù)測連續(xù)動作序列。

值得一提的是,流匹配是擴散模型的一種變體,因其簡單、好用的特點,已成為機器人底層操作策略的主流手段,并被廣泛應(yīng)用在先進的 VLA 模型里。

無論是π0、π0.5,還是 LeRobot 的 SmolVLA,英偉達的 GR00T,均采用了這一技術(shù)。

訓(xùn)練策略上,π0 主要依賴機器人演示數(shù)據(jù),通過端到端訓(xùn)練優(yōu)化動作預(yù)測,其動作表示全程依賴連續(xù)動作空間,通過流匹配生成動作軌跡。

盡管π0 模型在已知任務(wù)和環(huán)境里表現(xiàn)不錯,但在開放環(huán)境里泛化能力有限。

為了突破這一核心瓶頸,PI 團隊推出了π0.5,通過分層推理機制和多源數(shù)據(jù)協(xié)同訓(xùn)練,首次實現(xiàn)了在陌生家庭環(huán)境里執(zhí)行長時序任務(wù)。

π0.5 在π0 的基礎(chǔ)上引入了分層推理機制,其中高層推理負責(zé)預(yù)測抽象語義子任務(wù),例如拿起盤子、打開抽屜這樣的指令,底層推理則基于子任務(wù)生成關(guān)節(jié)級連續(xù)動作。

通過整合多種類型的機器人數(shù)據(jù)、網(wǎng)絡(luò)多模態(tài)數(shù)據(jù)、語言指導(dǎo)數(shù)據(jù)及語義標簽,機器人訓(xùn)練不再依賴單一的演示數(shù)據(jù),學(xué)會了從多元數(shù)據(jù)中汲取養(yǎng)分。

除此之外,π0.5 在動作表示上也采用了離散與連續(xù)動作結(jié)合的方式,機器人預(yù)訓(xùn)練用離散動作來提升效率,后訓(xùn)練引入流匹配來生成高精度連續(xù)動作,以平衡訓(xùn)練速度與控制精度。

目前,PI 也與中國公司建立了合作。硬件端,其機械臂由方舟無限提供,軟件端其與智元機器人、星塵智能有深度合作。

此外,廣和通的開發(fā)平臺 Fibot 也已應(yīng)用在模型π0.5 的數(shù)據(jù)采集中。

4 家中國公司公開對標 PI

隨著中國公司在具身智能領(lǐng)域的崛起,多家企業(yè)紛紛推出了各自的基礎(chǔ)模型,并在性能宣傳上表示超越了 PI 的π0、π0.5。

星海圖 G0 模型:評測結(jié)果在多個基準任務(wù)上全面優(yōu)于π0 模型

自變量機器人 Wall-OSS 模型:在多個維度上對標并超越了π0

智平方開源模型 FiS-VLA:在三方評測中綜合性能超越π0 達 30%

千訣科技類腦大模型:機器人接收模糊指令,可自主決策執(zhí)行任務(wù),執(zhí)行時間遠超π0.5

總的來看,目前具身智能行業(yè)已基本形成以 VLA 范式為核心的技術(shù)共識。

在這一共識下,五位玩家也依據(jù)自身優(yōu)勢,形成了差異化的定位:PI 是結(jié)果導(dǎo)向、技術(shù)驅(qū)動的典范;星海圖代表了數(shù)據(jù)驅(qū)動+開源生態(tài)的路徑;自變量深耕軟硬一體協(xié)同發(fā)展;智平方是場景優(yōu)先派,注重模型實際應(yīng)用價值;千訣科技則是前沿理論派。

從模型架構(gòu)的頂層設(shè)計來看,這些模型呈現(xiàn)出統(tǒng)一端到端與分層決策兩種鮮明路徑。

PI 的π0、π0.5 體現(xiàn)了前者追求簡潔高效的思路,即通過一個統(tǒng)一模型直接輸出從高級動作文本到低級關(guān)節(jié)控制的完整指令,在單一框架內(nèi)完成從語義理解到物理執(zhí)行的映射。

自變量的 WALL-OSS 則更注重深層次的統(tǒng)一性,其共享注意力與專家分流架構(gòu)讓語言、視覺和動作在同一個表示空間中交叉處理,從根本上減少多階段流程中的誤差累積。

與之相對,分層路徑則更注重模仿人類認知中的專業(yè)分工。

星海圖的 G0 模型和智平方的 FiS-VLA 模型均采用了雙系統(tǒng)架構(gòu),將復(fù)雜的任務(wù)規(guī)劃與高頻的實時控制分而治之。

G0 模型通過明確的快慢系統(tǒng)分離,使機器人在鋪床這類長周期任務(wù)中能穩(wěn)定協(xié)調(diào) 23 個自由度。

智平方的 FiS-VLA 更進一步,它將快系統(tǒng)直接嵌入到預(yù)訓(xùn)練好的慢系統(tǒng)內(nèi)部,通過復(fù)用慢系統(tǒng)末層的 Transformer 模塊,讓快系統(tǒng)天然繼承慢系統(tǒng)的語義理解能力,實現(xiàn)了思考與行動在單一模型內(nèi)的有機統(tǒng)一。

千訣科技的類腦大模型,則以前瞻性的思路,將生物大腦的神經(jīng)推理機制引入機器人大模型,開辟出一條更為差異化的技術(shù)路徑。

其模型通過重構(gòu)輸入與決策過程,賦予機器人更接近生物的主動適應(yīng)能力。

而在這些技術(shù)差異的背后,也折射出各家公司不同的發(fā)展理念與市場定位。

首先,開源成為了大多玩家的共同選擇。像π0、π0.5、WALL-OSS 、FiS-VLA 以及 G0 都采取了開源策略,既加速了技術(shù)推廣,也通過開發(fā)者社區(qū)反哺模型迭代,形成「開源-反饋-優(yōu)化」的良性循環(huán)。

在共性之外,五位玩家在應(yīng)用場景與商業(yè)化節(jié)奏的差異更為明顯。

Physical Intelligence 的π系列更側(cè)重技術(shù)驗證與泛化能力展示,商業(yè)化落地相對有限;中國模型則實現(xiàn)了技術(shù)與商業(yè)的深度綁定。

智平方通過開源生態(tài)積累開發(fā)者資源,已在工業(yè)場景實現(xiàn)降本增效,星海圖聚焦科研教育市場。

自變量機器人主打軟硬一體解決方案,千訣科技則以 API 服務(wù)賦能機器人廠商,形成了覆蓋工業(yè)、消費、端側(cè)等多場景的商業(yè)化布局。

這種差異本質(zhì)上源于市場需求的不同,海外市場更重視技術(shù)的通用性與前瞻性,而中國市場則強調(diào)技術(shù)落地的實際價值與投資回報,這種需求導(dǎo)向的分化也將持續(xù)影響未來模型的優(yōu)化方向。

具身智能的 ChatGPT 時刻何時到來

今年以來,各大論壇中被頻繁討論的問題之一便是:具身智能的「ChatGPT 時刻」何時到來?

面對這一問題,業(yè)內(nèi)玩家的態(tài)度各不相同,有的樂觀,有的審慎。

宇樹的王興興表示,目前機器人大模型的發(fā)展階段類似于 ChatGPT 發(fā)布前的 1-3 年,這一時刻或許并不遙遠;星動紀元的陳建宇則認為,要達到高標準的 ChatGPT 時刻,仍需 3 年以上時間。

銀河通用的王鶴指出,盡管人形機器人全面應(yīng)用的呼聲很高,但其發(fā)展至 ChatGPT 時刻仍有很長距離。

樂聚機器人的冷曉琨則提出,大語言模型的 ChatGPT 時刻在具身智能領(lǐng)域可能難以完全復(fù)制。

在 AI 深度融入日常的今天,像 ChatGPT、Deepseek 等大語言模型 AI 已經(jīng)能給我們提供很大的便捷,人類向 AI 提問,AI 能給到不錯的回答。

而將這一標準套入具身智能領(lǐng)域,則意味著:將一臺機器人置于任意場景中,用戶要求它完成各種雜活,機器人都能較好地執(zhí)行。

顯然,以現(xiàn)階段的技術(shù)而言,實現(xiàn)這一目標仍面臨三大瓶頸。

首先是數(shù)據(jù)瓶頸。具身智能行業(yè)「缺數(shù)據(jù)」,已是老生常談的話題。

打個比方,ChatGPT 喂給模型的學(xué)習(xí)數(shù)據(jù)量相當(dāng)于人不停學(xué)了 40 萬年,但具身智能行業(yè)里的有效數(shù)據(jù)差不多僅相當(dāng)于人不停學(xué)了 1 年。

行業(yè)需要大量多模態(tài)數(shù)據(jù)來訓(xùn)練,但真實場景數(shù)據(jù)采集成本高、效率低,且不同機器人硬件數(shù)據(jù)難以復(fù)用。仿真數(shù)據(jù)雖然可以批量生成,但容易產(chǎn)生 Sim2Real Gap,影響模型泛化能力。

因此,當(dāng)前業(yè)界普遍采用仿真+真實數(shù)據(jù)+開源數(shù)據(jù)集組合的方式來擴充數(shù)據(jù)規(guī)模。

數(shù)量是基礎(chǔ),質(zhì)量則是另一大挑戰(zhàn)。

盡管越來越多的公司開始進行數(shù)據(jù)采集,但數(shù)據(jù)質(zhì)量缺乏有效的評估標準,即便采集了數(shù)據(jù),若質(zhì)量不高,仍難以用于訓(xùn)練機器人。

此外,面對海量的互聯(lián)網(wǎng)視頻數(shù)據(jù),其物理正確性無法保證,很難直接用于機器人訓(xùn)練。

其次就是模型瓶頸,F(xiàn)有的模型架構(gòu)還不夠成熟,泛化能力有很大障礙,缺乏統(tǒng)一且高效的模型。

同時,在機器人強化學(xué)習(xí)領(lǐng)域,尚未出現(xiàn)像大語言模型那樣的 scaling law,導(dǎo)致機器人學(xué)習(xí)新技能效率低,投入和產(chǎn)出回報并不完全形成正比。

最后是系統(tǒng)工程問題。模型泛化能力不足,進而導(dǎo)致機器人進入陌生、非結(jié)構(gòu)化環(huán)境后,任務(wù)成功率大幅下降。

而且,不同機器人的關(guān)節(jié)自由度、驅(qū)動技術(shù)、材料選擇等缺乏統(tǒng)一標準,不同硬件架構(gòu)的數(shù)據(jù)與模型難以通用,增加了研發(fā)與部署成本。

目前,機器人本體能承載的功耗有限,無法部署大規(guī)模算力,云端計算又面臨延遲挑戰(zhàn),這也構(gòu)成了算力部署上的限制。

總的來說,具身智能要迎來 ChatGPT 時刻,需要機器人實現(xiàn)適應(yīng)非結(jié)構(gòu)化真實環(huán)境、多感官聯(lián)動,以及類人的思考能力。

相應(yīng)地,機器人也需要突破機械執(zhí)行的局限,提升元認知,賦予其反思與持續(xù)學(xué)習(xí)的能力,從而能夠適應(yīng)新環(huán)境與新任務(wù)。

「對標 PI」,本質(zhì)上是中國具身智能行業(yè)在技術(shù)追趕過程中的一個必然階段——通過明確的參照系快速定位差距、集中資源突破瓶頸。

但當(dāng) PI 已迭代至 π*0.6 并積極開源構(gòu)建生態(tài)時,中國玩家需要超越單純的性能對標,尋找差異化的破局路徑。

無論是星海圖的數(shù)據(jù)先行,還是智平方的場景綁定,其實都已展現(xiàn)出帶有中國特色的發(fā)展思路。

不同的路徑雖然各有側(cè)重,但都指向同一個核心,具身智能的競爭最終是技術(shù)-數(shù)據(jù)-場景的協(xié)同競爭,而非單一模型的性能比拼。

正如業(yè)內(nèi)人士所言,ChatGPT 的爆發(fā)不是因為單一模型的突破,而是語言數(shù)據(jù)、算法架構(gòu)、算力支撐的三重共振,具身智能的拐點同樣需要這種協(xié)同效應(yīng)。

或許,具身智能的 ChatGPT 時刻離我們并不遙遠,但這個關(guān)鍵節(jié)點,更可能在一次次模型迭代與機器調(diào)試中,悄然降臨。

       原文標題 : 中國公司開團,挑戰(zhàn)最強具身智能大腦

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號