訂閱
糾錯(cuò)
加入自媒體

具身智能終局是干活,但怎么才能干好活

圖片

 

作者:彭堃方

編輯:呂鑫燚

出品:具身研習(xí)社

 

具身智能的終局,必然指向“干活”。

這并非單一企業(yè)的片面判斷,而是產(chǎn)業(yè)確定性的方向。近日,波士頓動(dòng)力副總裁Zack Jackowski 在公開訪談中系統(tǒng)性闡述了企業(yè)戰(zhàn)略轉(zhuǎn)型邏輯,從早年憑借 “病毒式跑酷傳播”,轉(zhuǎn)向構(gòu)建適配場(chǎng)景的大腦能力。

不可否認(rèn),跑酷、跳舞等高難度運(yùn)控調(diào)試作為產(chǎn)業(yè)培育期的注意力錨點(diǎn),具備初期市場(chǎng)啟蒙價(jià)值,但絕非產(chǎn)業(yè)演進(jìn)的終極歸宿。作為在運(yùn)控領(lǐng)域聞名遐邇的“古早網(wǎng)紅”,波士頓動(dòng)力的轉(zhuǎn)舵向全行業(yè)釋放出明確信號(hào):干活能力的構(gòu)建,既是具身智能的未來方向,更是產(chǎn)業(yè)進(jìn)階的必答題。

放眼全球產(chǎn)業(yè)實(shí)踐,頭部企業(yè)的布局已形成協(xié)同印證:特斯拉Optimus在自家超級(jí)工廠承擔(dān)電池模組分揀與裝配作業(yè),F(xiàn)igure機(jī)器人進(jìn)駐寶馬工廠開展汽車零部件裝配實(shí)訓(xùn),均以干活為核心錨點(diǎn)推進(jìn)技術(shù)迭代。

國內(nèi)產(chǎn)業(yè)脈絡(luò)同樣遵循這一邏輯,北京人形機(jī)器人憑借具身天工Ultra全場(chǎng)唯一自主奔跑的方式斬獲人形機(jī)器人半程馬拉松賽事冠軍,通過極限場(chǎng)景驗(yàn)證核心運(yùn)控能力后,便迅速回歸干活;在人形機(jī)器人運(yùn)動(dòng)會(huì)中,不僅成為了首個(gè)全自主的人形機(jī)器人的百米“飛人”,更是在物料整理、搬運(yùn)、酒店迎賓等場(chǎng)景賽事中斬獲1金3銀1銅的佳績,持續(xù)夯實(shí)場(chǎng)景適配基礎(chǔ)。

更關(guān)鍵的是,北京人形始終以全自主、更好用的干活場(chǎng)景為導(dǎo)向,貫穿技術(shù)落地全過程,在3D場(chǎng)景(Dangerous、Dirty、Dull)中,通過真實(shí)工況下的作業(yè)實(shí)踐驗(yàn)證模型有效性,持續(xù)挖掘新質(zhì)生產(chǎn)力價(jià)值。

 

圖片

從全球頭部企業(yè)的戰(zhàn)略布局與實(shí)踐路徑不難看出,具身智能的終極發(fā)展導(dǎo)向,必然指向干活能力的成熟落地。

當(dāng)行業(yè)熱議人形機(jī)器人邁入萬億級(jí)市場(chǎng)爆發(fā)窗口期時(shí),其核心破局點(diǎn)在于干活能力的實(shí)質(zhì)性突破。唯有當(dāng)人形機(jī)器人能在真實(shí)產(chǎn)業(yè)場(chǎng)景中創(chuàng)造可量化的商業(yè)價(jià)值與產(chǎn)業(yè)價(jià)值,才能推動(dòng)產(chǎn)業(yè)從實(shí)驗(yàn)室原型階段邁向規(guī);虡I(yè)落地階段,真正激活萬億市場(chǎng)的增長潛力。

圖片

北京人形圍繞具身智能機(jī)器人能干活,會(huì)干”的核心訴求,破解了“單一場(chǎng)景落地”的瓶頸。其跨場(chǎng)景適配的背后,藏著技術(shù)路線的底層創(chuàng)新。

之所以能成為“多面手”,關(guān)鍵在于北京人形構(gòu)建的具身“大”:以WoW(我悟)世界模型與Pelican-VL(天多模態(tài)大模型構(gòu)成的智能大腦為核心;搭配XR-1模型為核心的具身操作“小腦”,通過大小腦協(xié)同,為具身天工、天軼等具身智能機(jī)器人賦予感知-決策-執(zhí)行的完整能力閉環(huán)。

其中,“大腦”是支撐機(jī)器人自主決策的核心。WoW作為具身世界模型,能構(gòu)建交互式虛擬世界,讓機(jī)器人在虛擬世界中實(shí)現(xiàn)“預(yù)測(cè)判斷和自我調(diào)試邏輯錯(cuò)誤”,提前規(guī)避真實(shí)操作中的失誤;而Pelican-VL視覺語言模型則負(fù)責(zé)打通“看見”與“理解”的鏈路,使機(jī)器人能精準(zhǔn)識(shí)別變形料箱、反光零部件等復(fù)雜目標(biāo),為操作提供決策依據(jù)。

具身大腦讓機(jī)器人知道該怎么做后,如何精準(zhǔn)執(zhí)行并輸出流暢動(dòng)作則需具身小腦來完成。

XR-1是北京人形為機(jī)器人打造具身小腦”的核心,是目前國內(nèi)首個(gè)且唯一一個(gè)通過具身智能國標(biāo)測(cè)試的具身VLA大模型,能在多構(gòu)型本體上精準(zhǔn)完成多種場(chǎng)景下的多種任務(wù)。

具體來看,XR-1的核心優(yōu)勢(shì)在于實(shí)現(xiàn)了“三跨”特性:

跨數(shù)據(jù)源學(xué)習(xí),不僅能利用機(jī)器人真機(jī)和仿真數(shù)據(jù)進(jìn)行訓(xùn)練,甚至通過人類第一視角的視頻進(jìn)行學(xué)習(xí),解決各種應(yīng)用場(chǎng)景數(shù)據(jù)稀缺的痛點(diǎn);

跨模態(tài)對(duì)齊,通過獨(dú)創(chuàng)的統(tǒng)一視覺-運(yùn)動(dòng)編碼(UVMC)技術(shù),用一套共享“詞典”翻譯視覺信息與動(dòng)作指令,讓機(jī)器人形成某種本能反應(yīng);

跨本體控制,讓算法能適配雙足、輪式等不同構(gòu)型、不同品牌的機(jī)器人。

從底層數(shù)據(jù)到指令再到適配,XR-1“三跨”解決了具身智能“由里到外”的痛點(diǎn),當(dāng)同一套模型能驅(qū)動(dòng)不同機(jī)器人完成不同任務(wù)時(shí),場(chǎng)景拓展成本將大幅降低。

XR-1的靈活性源于其創(chuàng)的結(jié)合數(shù)據(jù)的三段式訓(xùn)練范式“先練內(nèi)功再練招式”:

第一階段是依托海量自有多本體數(shù)據(jù),結(jié)合互聯(lián)網(wǎng)人類操作視頻,不學(xué)習(xí)具體任務(wù),只學(xué)習(xí)如何將復(fù)雜的視覺畫面與動(dòng)作軌跡壓縮成一套統(tǒng)一的視覺-運(yùn)動(dòng)代碼字典。

第二階段是再用大規(guī)?鐧C(jī)器人數(shù)據(jù)強(qiáng)化訓(xùn)練,讓它理解物理世界的基本規(guī)律和通用操作規(guī)范。經(jīng)過這一步,XR-1不再依賴具體場(chǎng)景的預(yù)設(shè),而是能根據(jù)物理規(guī)律自主判斷動(dòng)作。

第三階段針對(duì)特定場(chǎng)景用少量專項(xiàng)數(shù)據(jù)微調(diào),讓其具體崗位上更“專業(yè)”。

 

圖片

簡單來說就是模型兼具通用和專用,且不只是“照葫蘆畫瓢式”輸出動(dòng)作,而是真正理解把一件事做對(duì)、干好活是意味著什么。

這不再是一個(gè)“有多少智能就有多少人工”的落地悖論,而是實(shí)打?qū)嵉拇笠?guī)模部署。這種訓(xùn)練范式帶來的領(lǐng)先性,在與行業(yè)頂尖模型的對(duì)比中尤為明顯。

北京人形將XR-1與當(dāng)前世界先進(jìn)的具身VLA模型(如PI0.5)在120項(xiàng)真實(shí)世界任務(wù)中測(cè)試,結(jié)果顯示XR-1的任務(wù)成功率全面領(lǐng)先,在部分任務(wù)上,成功率更是達(dá)到其他模型的2倍。此外,XR-1在具身天工2.0、UR、Franka等多種多構(gòu)型的機(jī)器人本體上,都表現(xiàn)出了高成功率和強(qiáng)魯棒性。

XR-1的靈活性和泛化性離不開優(yōu)質(zhì)數(shù)據(jù)滋養(yǎng),其數(shù)據(jù)養(yǎng)分為RoboMINDArtVIP。

其中,RoboMIND是一個(gè)大規(guī)模多構(gòu)型機(jī)器人數(shù)據(jù)集與評(píng)測(cè)基準(zhǔn),旨在解決機(jī)器人訓(xùn)練數(shù)據(jù)采集成本高昂、高質(zhì)量數(shù)據(jù)稀缺的行業(yè)痛點(diǎn)。其最初版本于24年12月發(fā)布,目前累計(jì)下載量已超15萬,F(xiàn)在RoboMIND 2.0版本已升級(jí)至包含30萬條雙臂操作軌跡,覆蓋具身天工等6種機(jī)器人本體,并搭建了10余個(gè)場(chǎng)景、涵蓋739項(xiàng)任務(wù),不僅為模型訓(xùn)練提供了海量、多樣化的“實(shí)戰(zhàn)經(jīng)驗(yàn)”,其新增的1.2+萬條帶觸覺操作數(shù)據(jù),更是為訓(xùn)練更智能、更協(xié)作的機(jī)器人模型提供了關(guān)鍵養(yǎng)料。

 

圖片

當(dāng)然,RoboMIND 2.0本身還有一創(chuàng)舉值得一提,即RoboMIND 2.0打通了虛實(shí)數(shù)據(jù)壁壘,將海量仿真數(shù)據(jù)與真機(jī)經(jīng)驗(yàn)深度熔鑄,使得模型性能大幅提升。據(jù)了解,在XR-1模型在數(shù)據(jù)調(diào)配中發(fā)現(xiàn),當(dāng)真機(jī)數(shù)據(jù)與仿真數(shù)據(jù)比例從1:0提升至1:5后,任務(wù)成功率平均提升超25%。

RoboMIND中的仿真數(shù)據(jù)并非是習(xí)以為常的抓取&放置”這類常規(guī)操作,它還包含了ArtVIP這類高保真,且針對(duì)復(fù)雜鉸接物體的操作數(shù)據(jù)。ArtVIP是北京人形與北京市建筑設(shè)計(jì)研究院聯(lián)合打造的高保真鉸接物體仿真資產(chǎn),專注于攻克如轉(zhuǎn)椅、抽屜、冰箱等復(fù)雜靈巧操作難題。

圖片

通過極致還原物體的視覺外觀與物理特性,ArtVIP極大地縮小了Sim2Real的鴻溝,讓XR-1模型能在投入物理世界前,于虛擬空間中安全、高效地“預(yù)演”萬千復(fù)雜任務(wù),錘煉出應(yīng)對(duì)真實(shí)世界不確定性的強(qiáng)大泛化能力。目前其高保真數(shù)字孿生鉸接物品數(shù)量正持續(xù)增加至超1000個(gè),是目前已開源的全球最精細(xì)的復(fù)雜鉸接物體仿真

至此,一套“由ArtVIP高保真數(shù)據(jù)搭起可擴(kuò)展的數(shù)據(jù)基礎(chǔ),RoboMIND 2.0熔鑄仿真數(shù)據(jù)與真機(jī)數(shù)據(jù),XR-1高效學(xué)習(xí)”的具身智能系統(tǒng)已經(jīng)完備。在數(shù)據(jù)集的優(yōu)質(zhì)養(yǎng)分和靈活的具身小腦支撐下,具身天工2.0已經(jīng)能做出點(diǎn)新東西。例如,在昏暗的酒吧環(huán)境中,無懼光照泛化,精準(zhǔn)理解測(cè)試員的自然語言表達(dá),再識(shí)別桌面不同的酒,拿起杯子倒酒后穩(wěn)穩(wěn)遞給測(cè)試員手中,整個(gè)過程一氣呵成,頭部和身體軌跡互相配合,有了點(diǎn)人類的“呼吸感”。

 

圖片

 

如今,兩大數(shù)據(jù)資源與首個(gè)國標(biāo)具身VLA模型 XR-1都已同步開源,北京人形用已被驗(yàn)證好用的應(yīng)用落地“工具箱”,為產(chǎn)業(yè)注入了新動(dòng)力。

圖片

 

相較于在領(lǐng)獎(jiǎng)臺(tái)上摘得賽事桂冠、刷新紀(jì)錄的高光時(shí)刻,北京人形在多元場(chǎng)景中干活顯得略微有些低調(diào),或說更加務(wù)實(shí)。

這里還有個(gè)從產(chǎn)業(yè)需求中衍生出的小插曲,北京人形在運(yùn)動(dòng)會(huì)取得的勝利,并非是單純的比賽,而是企業(yè)特意布置的考題。

作為世界經(jīng)濟(jì)論壇認(rèn)證的“燈塔工廠”,福田康明斯一直尋求適配其復(fù)雜生產(chǎn)場(chǎng)景的人形機(jī)器人生產(chǎn)力,但始終未找到和其核心需求匹配的人形機(jī)器人生產(chǎn)力。為此,其在2025世界機(jī)器人大會(huì)場(chǎng)景挑戰(zhàn)賽中,針對(duì)性設(shè)置了料箱規(guī)整、物料分類等貼合工廠日常作業(yè)的實(shí)操難題,這些正是真實(shí)工作場(chǎng)景中高頻出現(xiàn)且亟待解決的痛點(diǎn)。

經(jīng)過多輪技術(shù)方案的深度比對(duì),北京人形憑借對(duì)產(chǎn)業(yè)場(chǎng)景需求的深度解構(gòu)與技術(shù)方案的精準(zhǔn)適配,最終成為福田康明斯的合作方。

如今在福田康明斯昌平工廠,北京人形的具身天工2.0與天軼2.0在福田康明斯進(jìn)入實(shí)訓(xùn),其中,天軼2.0能高效率完成物料轉(zhuǎn)運(yùn)作業(yè),面對(duì)使用3-5年的變形周轉(zhuǎn)箱,可通過視覺感知系統(tǒng)實(shí)時(shí)動(dòng)態(tài)調(diào)整抓取角度,實(shí)現(xiàn)非結(jié)構(gòu)化環(huán)境下的自適應(yīng)操作。

 

圖片

福田康明斯的實(shí)踐并非孤例,北京人形的場(chǎng)景落地版圖始終聚焦于3D場(chǎng)景。此類場(chǎng)景既是人類勞動(dòng)力亟待解放的核心領(lǐng)域,也是具身智能實(shí)現(xiàn)價(jià)值轉(zhuǎn)化的關(guān)鍵陣地,機(jī)器人的落地干活并非簡單替代,而是針對(duì)性解決產(chǎn)業(yè)痛點(diǎn)的“靶向性賦能”。

在福田康明斯的生產(chǎn)車間,天軼機(jī)器人承接了長期彎腰搬運(yùn)的重負(fù)荷作業(yè),而這類工序曾是導(dǎo)致工人頸椎、腰椎損傷的職業(yè)病高發(fā)誘因,其高負(fù)載承載與升降調(diào)節(jié)能力從源頭降低了勞動(dòng)傷害風(fēng)險(xiǎn);

在中國電力科學(xué)院的特高壓試驗(yàn)場(chǎng)站,具身天工機(jī)器人替代人工完成高壓設(shè)備巡檢,將人員觸電風(fēng)險(xiǎn)歸零,實(shí)現(xiàn)高危場(chǎng)景的無人化作業(yè);

在李寧運(yùn)動(dòng)科學(xué)實(shí)驗(yàn)室,天工機(jī)器人僅需2-3天即可完成人類需1個(gè)月的跑步運(yùn)動(dòng)數(shù)據(jù)采集工作,將研究人員從高強(qiáng)度、重復(fù)性的奔跑測(cè)試和數(shù)據(jù)記錄工作中解放;

需要強(qiáng)調(diào)的是,北京人形落地的多場(chǎng)景絕非簡單的業(yè)務(wù)鋪陳。

汽車工廠的物料搬運(yùn)需要應(yīng)對(duì)動(dòng)態(tài)障礙物,高壓巡檢依賴高精度環(huán)境識(shí)別,制藥場(chǎng)景則對(duì)操作精度有嚴(yán)苛要求。每種任務(wù)都對(duì)應(yīng)著截然不同的模型能力與技能組合。

 

圖片

這種落地價(jià)值遠(yuǎn)超炫技類技術(shù)演示,北京人形的實(shí)踐正在印證具身智能的產(chǎn)業(yè)化核心邏輯:當(dāng)機(jī)器人脫離表演性動(dòng)作范疇,切入能夠直接降低勞動(dòng)風(fēng)險(xiǎn)、提升生產(chǎn)效率、保障作業(yè)精度的具象化產(chǎn)業(yè)場(chǎng)景時(shí),具身智能才真正邁入產(chǎn)業(yè)化落地的實(shí)質(zhì)性階段,其技術(shù)價(jià)值也隨之轉(zhuǎn)化為可量化的產(chǎn)業(yè)價(jià)值與商業(yè)價(jià)值。

圖片

2025年末,行業(yè)正在悄然進(jìn)入一個(gè)新的階段。故事依然重要,但不再是免檢通行證。企業(yè)要思考回答一個(gè)更現(xiàn)實(shí)的問題:能不能干活,值不值錢,能不能規(guī);瘡(fù)用。在這個(gè)節(jié)點(diǎn)上,北京人形給出的選擇并不張揚(yáng),卻足夠清晰。

從產(chǎn)業(yè)視角來看,北京人形提供的XR-1并不是一個(gè)單純?yōu)榱伺判邪穸哪P。相較于“刷新指標(biāo)”,它更像是一套面向真實(shí)產(chǎn)業(yè)世界的通用能力基座。

一方面,北京人形通過開放包含“國標(biāo)適配具身小腦大模型”和“多場(chǎng)景遷移方案”在內(nèi)的核心能力,XR-1能夠賦能產(chǎn)業(yè)鏈上下游的合作伙伴,使其能快速適配嚴(yán)格的行業(yè)標(biāo)準(zhǔn)與安全要求,顯著縮短了產(chǎn)品研發(fā)和部署的周期。

另一方面,XR-1的開源也顯著降低了中小企業(yè)與高校的研發(fā)成本。具身智能的現(xiàn)實(shí)困境在于:重復(fù)造輪子的人太多,而真正把輪子裝到車上的人太少。當(dāng)?shù)讓幽芰梢詮?fù)用,有限的工程資源才能被投入到更具體的場(chǎng)景問題中。從這個(gè)角度看,XR-1的價(jià)值并不只是北京人形多了一個(gè)強(qiáng)大模型,而是整個(gè)產(chǎn)業(yè)少走了一段彎路。

而且必須承認(rèn),在產(chǎn)業(yè)早期階段,頂尖的模型能力與高質(zhì)量的數(shù)據(jù)通常被企業(yè)視為最核心的競爭壁壘和商業(yè)機(jī)密,嚴(yán)加守護(hù)。然而,北京人形卻反其道而行之,不僅開源了XR-1核心算法,更將支撐其強(qiáng)大泛化能力的RoboMIND數(shù)據(jù)集與ArtVIP仿真資產(chǎn)庫一并開放。這種開放的姿態(tài)在當(dāng)下顯得尤為珍貴。它意味著北京人形致力于將自身的技術(shù)成果轉(zhuǎn)化為整個(gè)行業(yè)發(fā)展的“公共基石”,而非獨(dú)享的“護(hù)城河”。其目標(biāo)是通過協(xié)作創(chuàng)新,共同把機(jī)器人應(yīng)用的“蛋糕”做大,而非在存量市場(chǎng)中內(nèi)卷。

如果從具身智能的終局反觀現(xiàn)在北京人形的做法,它是一種更務(wù)實(shí)的下注方式。當(dāng)基礎(chǔ)能力被不斷復(fù)用、檢驗(yàn)和修正,真正的差異化才會(huì)逐漸從系統(tǒng)工程、場(chǎng)景理解與規(guī)模交付中生長出來。具身智能也才能從“被反復(fù)講述的未來”,變成“已經(jīng)開始運(yùn)轉(zhuǎn)的現(xiàn)實(shí)”。

在宏大敘事與踏實(shí)做事之間,北京人形選擇了后者。很多時(shí)候,產(chǎn)業(yè)真正的拐點(diǎn),并不誕生于最響亮的口號(hào)中,而是在這種持續(xù)把活兒干下去的選擇里,悄然成形。

       原文標(biāo)題 : 具身智能終局是干活,但怎么才能干好活?

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)