一凡 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
智能汽車、自動(dòng)駕駛、物理AI的競(jìng)速引擎,正在悄然收斂——
至少核心頭部玩家,已經(jīng)在最近的ICCV 2025,展現(xiàn)出了共識(shí)。
在端到端一統(tǒng)江湖但數(shù)據(jù)瓶頸開(kāi)始成為新挑戰(zhàn)后,必須轉(zhuǎn)向強(qiáng)化學(xué)習(xí),必須把云端生成式世界模型作為新基座。
春江水暖,異口同聲。特斯拉和理想汽車,都在AI頂會(huì)現(xiàn)場(chǎng)分享著最新實(shí)踐真知。
特斯拉自動(dòng)駕駛副總裁Ashok Elluswamy在演講中透露,當(dāng)前特斯拉正在用世界模擬器來(lái)評(píng)估車端模型。幾乎同時(shí),理想VLA模型負(fù)責(zé)人詹錕也圍繞世界模型,在具身智能研討會(huì)做了題為《World Model:Evolving from Data Closed-loop to Training Closed-loop》(世界模型讓我們從數(shù)據(jù)閉環(huán)走向訓(xùn)練閉環(huán))的分享。
理想的觀點(diǎn)是,當(dāng)前數(shù)據(jù)閉環(huán)已經(jīng)不夠用了,VLA通往L4,需要訓(xùn)練閉環(huán)。
而這種閉環(huán)的構(gòu)建方法和背后原因,詹錕也在會(huì)后更進(jìn)一步的對(duì)話中分享了理想的思考和實(shí)踐。
自動(dòng)駕駛下半場(chǎng)?從數(shù)據(jù)閉環(huán)邁向訓(xùn)練閉環(huán)
在ICCV現(xiàn)場(chǎng),理想在開(kāi)篇就提出,自動(dòng)駕駛技術(shù)和大模型一樣,都進(jìn)入了下半場(chǎng)。為什么這么說(shuō)?
首先回憶一下上半場(chǎng),端到端架構(gòu)統(tǒng)一自動(dòng)駕駛的技術(shù)棧,釋放了Scaling Law的潛力,讓AI能力快速提高。
但理想很快發(fā)現(xiàn),AI基于模仿學(xué)習(xí)只能學(xué)到數(shù)據(jù)的平均水平,難以超越人類司機(jī)的能力,技術(shù)范式需要改變。幾乎同時(shí),大規(guī)模算力基礎(chǔ)設(shè)施和高保真仿真環(huán)境技術(shù)也在快速成熟,為范式遷移創(chuàng)造了條件。于是理想決定從數(shù)據(jù)閉環(huán)邁向訓(xùn)練閉環(huán)。
數(shù)據(jù)閉環(huán)大家都很熟悉了,就是數(shù)據(jù)采集、模型訓(xùn)練、評(píng)估和部署的循環(huán),但這無(wú)法覆蓋到一些邊緣場(chǎng)景。
訓(xùn)練閉環(huán)則是在此基礎(chǔ)上,讓模型不斷通過(guò)環(huán)境生成和環(huán)境反饋來(lái)迭代,從而實(shí)現(xiàn)設(shè)定的訓(xùn)練目標(biāo)。
具體實(shí)現(xiàn)方法如下:理想在云端構(gòu)建了一套世界模型訓(xùn)練環(huán)境,來(lái)訓(xùn)練具備先驗(yàn)知識(shí)和駕駛能力的車端VLA模型。這是全球首個(gè)將世界模型與強(qiáng)化學(xué)習(xí)閉環(huán)落地于量產(chǎn)自動(dòng)駕駛系統(tǒng)的完整架構(gòu)。
由于行業(yè)對(duì)世界模型的定義有所不同,這里需要說(shuō)明一下,理想所說(shuō)的世界模型是一個(gè)全面的系統(tǒng),包括環(huán)境的構(gòu)建、智能體的構(gòu)建、反饋的構(gòu)建以及場(chǎng)景的多種推演。世界模型是理想此次在ICCV分享的核心內(nèi)容,據(jù)介紹該系統(tǒng)主要具備三大能力:
- 區(qū)域級(jí)別的仿真和評(píng)估
- 合成全新數(shù)據(jù)
- 強(qiáng)化學(xué)習(xí)的世界引擎
三項(xiàng)能力協(xié)同,推動(dòng)訓(xùn)練閉環(huán)落地,接下來(lái)逐一進(jìn)行討論。
首先是區(qū)域級(jí)別的仿真和評(píng)估,這是車端VLA能進(jìn)行長(zhǎng)時(shí)序擬真評(píng)估的關(guān)鍵。據(jù)介紹,理想目前采用重建和生成結(jié)合的仿真路線。
因?yàn)樵诶硐肟磥?lái),重建和生成各具優(yōu)勢(shì)。重建能把操作對(duì)象完美還原,穩(wěn)定性更好,但一般輸出的是靜態(tài)結(jié)果。
而生成則能輸出動(dòng)態(tài)的變化信息,可以得到與操作對(duì)象完全不同的圖像,泛化性更強(qiáng),但結(jié)果不可控。
所以理想決定將兩者結(jié)合進(jìn)行仿真,與合作伙伴產(chǎn)出的研究成果相繼被計(jì)算機(jī)視覺(jué)三大頂會(huì)收錄。
比如理想此前參與的首個(gè)自動(dòng)駕駛3DGS街景重建算法Street Gaussians,該工作被頂會(huì)ECCV 2024收錄。
還有入選本屆ICCV的工作《Hierarchy UGP: Hierarchy Unified Gaussian Primitive for Large-Scale Dynamic Scene Reconstruction》,由浙江大學(xué)、理想汽車和電子科技大學(xué)等單位共同完成。
Hierarchy UGP是業(yè)內(nèi)首個(gè)大規(guī)模自動(dòng)駕駛重建模型,在作者專有的數(shù)據(jù)集和公開(kāi)的Waymo數(shù)據(jù)集上都實(shí)現(xiàn)了SOTA。
該模型分為根、子場(chǎng)景和圖元三層。其中根層是入口,然后子場(chǎng)景層將空間進(jìn)一步劃分,并提取出各種元素。最后圖元層用定義在4D空間的統(tǒng)一高斯圖元(Unified Gaussian Primitive)將元素建模。這個(gè)方法可以同時(shí)對(duì)剛性和非剛性運(yùn)動(dòng)重建。
以上兩項(xiàng)成果主要圍繞重建工作,此外在重建和生成結(jié)合方向上,理想還聯(lián)合GigaAI提出基于補(bǔ)充生成新視角的重建范式ReconDreamer,相關(guān)成果入選了今年的CVPR。
盡管過(guò)去在重建方面取得了不錯(cuò)的成績(jī),但詹錕認(rèn)為由于生成方式能低成本、大規(guī)模生成邊緣場(chǎng)景,而且數(shù)據(jù)很多樣,所以未來(lái)的仿真工作中,重建的占比將越來(lái)越少,對(duì)應(yīng)地生成的占比越來(lái)越多,而且該趨勢(shì)不可逆。
探討完世界模型的第一層應(yīng)用仿真,再往下來(lái)看合成全新數(shù)據(jù)能力,可以構(gòu)建多樣的場(chǎng)景集,讓場(chǎng)景的數(shù)據(jù)均衡分布,最終實(shí)現(xiàn)更全面的評(píng)估,提高模型性能。
在理想看來(lái),合成數(shù)據(jù)主要有場(chǎng)景編輯、遷移和全場(chǎng)景生成這三層應(yīng)用。這項(xiàng)能力讓理想的數(shù)據(jù)更全面,從下圖中可以看出,過(guò)去依靠采集方式獲取的數(shù)據(jù)(上半部分),集中在晴天、普通道路和普通車輛等簡(jiǎn)單場(chǎng)景,而現(xiàn)在與合成的數(shù)據(jù)結(jié)合后(下半部分),覆蓋場(chǎng)景更廣、極端案例更多、種類更加復(fù)雜,對(duì)應(yīng)地模型能得到更全面的提升。
最后一層應(yīng)用是理想認(rèn)為最具挑戰(zhàn)性的強(qiáng)化學(xué)習(xí)世界引擎,這一層讓模型能在訓(xùn)練環(huán)境中自由探索并獲得反饋,主要有五大關(guān)鍵因素:
- 世界模型、3D資產(chǎn)、仿真智能體:主要解決環(huán)境是否真實(shí)的問(wèn)題
- 獎(jiǎng)勵(lì)模型:對(duì)強(qiáng)化學(xué)習(xí)產(chǎn)生最重要的直接影響
- 性能優(yōu)化:決定強(qiáng)化學(xué)習(xí)能否大規(guī)模應(yīng)用的關(guān)鍵
在五個(gè)因素中,理想認(rèn)為仿真智能體是目前最棘手的問(wèn)題,完整地建模他車、他車和自車以及他車和他車的交互行為,甚至比實(shí)現(xiàn)單車L4級(jí)自動(dòng)駕駛還要難。
詹錕在分享中介紹了兩種解決方法,一種是業(yè)內(nèi)此前嘗試過(guò)的自博弈(Self-play),另一種是理想應(yīng)用的范式。其通過(guò)給定目標(biāo)函數(shù)和獎(jiǎng)勵(lì)函數(shù)來(lái)約束多個(gè)智能體的行為,包括他們的個(gè)體動(dòng)態(tài)和交互動(dòng)態(tài),同時(shí)通過(guò)調(diào)整獎(jiǎng)勵(lì)權(quán)重改變智能體的行為分布,從而實(shí)現(xiàn)樣本多樣性。
上述一系列技術(shù)成果推動(dòng)著理想的輔助駕駛能力快速進(jìn)步,開(kāi)始通過(guò)漸進(jìn)升維方式,向L4邁進(jìn)。詹錕在分享中還展示了一小段理想在園區(qū)內(nèi)部道路的輔助駕駛能力。
率先洞察到行業(yè)趨勢(shì),邁向訓(xùn)練閉環(huán),這背后得益于理想率先跑通的另一個(gè)閉環(huán)。
理想的另一個(gè)閉環(huán)?
理想在一眾造車新勢(shì)力中率先實(shí)現(xiàn)盈利,跑通商業(yè)化閉環(huán),這是其近年科研成果不斷開(kāi)花落地的重要原因。
2023年和2024年,理想全年研發(fā)投入連續(xù)超百億元,2025年上半年財(cái)報(bào)顯示,理想同期研發(fā)投入為53億元,預(yù)估今年仍將超過(guò)百億。
數(shù)百億砸向的不僅僅是上層的輔助駕駛算法,還包括底層的整車操作系統(tǒng)理想星環(huán)OS。星環(huán)OS首次上車于2024年,一方面實(shí)現(xiàn)了開(kāi)發(fā)過(guò)程中的軟硬件解耦,將芯片的適配和驗(yàn)證加快至4周內(nèi)完成。
另一方面,星環(huán)OS上車后打通了整車割裂的多個(gè)模塊,提升了車輛整體的性能,以AEB(自動(dòng)緊急制動(dòng))功能為例,實(shí)現(xiàn)該功能一般需要經(jīng)過(guò)以下三個(gè)環(huán)節(jié):
傳感器發(fā)現(xiàn)危險(xiǎn),上報(bào)中央算力控制器做出決策,最終執(zhí)行器操作剎車。
整個(gè)功能鏈路經(jīng)過(guò)了多個(gè)控制器,它們分別屬于不同域,信息在每個(gè)環(huán)節(jié)中傳遞,就像咱們工作中要協(xié)調(diào)多個(gè)部門(mén),在傳統(tǒng)架構(gòu)下會(huì)產(chǎn)生一些延遲。而星環(huán)OS采用跨系統(tǒng)架構(gòu)設(shè)計(jì),能夠讓不同控制器響應(yīng)更快,協(xié)調(diào)更好。
據(jù)理想介紹,在車輛以120km/h速度行駛的情況下,星環(huán)OS相比傳統(tǒng)OS可以縮短7米剎停距離,7米距離,極端情況下很可能就是兩個(gè)相反的結(jié)果。
該成果不僅服務(wù)著130多萬(wàn)名理想車主,在今年也開(kāi)始惠及整個(gè)行業(yè)。2025年3月,理想星環(huán)OS正式亮相隨后開(kāi)源,相關(guān)源碼逐步公開(kāi)。
據(jù)理想介紹,自研星環(huán)OS投入資金超10億,上車后每年整體降低了幾十億BOM成本。所以說(shuō),這項(xiàng)成果開(kāi)源給行業(yè)后也能夠幫助很多車企省去數(shù)億元研發(fā)預(yù)算,快速獲得整車OS能力。
自己開(kāi)源,幫行業(yè)節(jié)流,一個(gè)圍繞星環(huán)OS的生態(tài)聯(lián)盟很快成形。2025年9月,長(zhǎng)城汽車、英飛凌、芯馳科技、匯川聯(lián)合動(dòng)力、欣旺達(dá)和德賽西威等16位產(chǎn)業(yè)鏈玩家與理想汽車共同簽署《星環(huán)OS社區(qū)章程》。
值得一提的是,理想的開(kāi)源成果不僅得到了工業(yè)界的積極響應(yīng),也被學(xué)術(shù)界AI頂會(huì)認(rèn)可。本屆ICCV就收錄了理想的開(kāi)源數(shù)據(jù)集3DRealCar。
3DRealCar采用完全開(kāi)放可商用的Apache 2.0開(kāi)源協(xié)議,其包含了2500輛真實(shí)汽車,平均每輛車采集了200張高分辨率RGB-D圖像,是目前行業(yè)唯一的高質(zhì)量、大規(guī)模真實(shí)汽車3D數(shù)據(jù)集,具有360度視角和不同光照條件。
由于數(shù)據(jù)集中的每輛車都提供了RGB-D圖像、點(diǎn)云、車輛解析圖和詳細(xì)標(biāo)注信息,因此該數(shù)據(jù)集可用于各種2D和3D任務(wù),用于重建各種場(chǎng)景。
缺乏高質(zhì)量真實(shí)3D車輛數(shù)據(jù),一直是一個(gè)令行業(yè)頭疼的問(wèn)題。因此3DRealCar在開(kāi)源后,很快就被行業(yè)頭部拿去用了,用行動(dòng)表達(dá)了認(rèn)可。
實(shí)際上,隨著理想這一年越來(lái)越多AI進(jìn)展和成果浮出水面,那個(gè)大眾層面以奶爸車、家用車、車和家被人認(rèn)知,以汽車產(chǎn)品體驗(yàn)獲得口碑和銷量的理想汽車……
在技術(shù)層面早已呈現(xiàn)出另一面——
一個(gè)技術(shù)面貌的理想,一個(gè)AI面貌的理想,一個(gè)基于造車但超越汽車本身的理想。
AI頂會(huì)趨勢(shì):有理想的汽車玩家必須逐鹿AI
有意思的是,理想內(nèi)部也早已完成了自我追求刷新。
在大模型重塑浪潮中,理想率先完成了新階段定義——面向AI,成長(zhǎng)為空間機(jī)器人企業(yè)。
這也是理想不斷挑戰(zhàn)成長(zhǎng)極限的新目標(biāo),而且天時(shí)地利人和兼具。
首先,理想有基本盤(pán)儲(chǔ)備。造車基本盤(pán)穩(wěn)固,在造車研發(fā)、制造、營(yíng)銷和交付全流程完成了閉環(huán)飛輪,在新勢(shì)力浪潮中率先拿到晉級(jí)門(mén)票。
其次,AI技術(shù)儲(chǔ)備,機(jī)器人和物理世界交互的關(guān)鍵鑰匙VLA,此前已全量推送上車,驅(qū)動(dòng)著車輛本體游遍大街小巷。
再次,預(yù)研方向和技術(shù)展現(xiàn)世界級(jí)水平,在全球華山論劍的AI頂會(huì)獲得認(rèn)可。比如本次ICCV收錄的《RoboPearls: Editable Video Simulation for Robot Manipulation》,提出一個(gè)基于3D高斯?jié)姙R的可編輯視頻仿真系統(tǒng),專門(mén)用于機(jī)器人操作任務(wù)的仿真數(shù)據(jù)生成。
最后,還有理想構(gòu)建的「研產(chǎn)閉環(huán)」能力,讓理想能夠?qū)㈩A(yù)研成果轉(zhuǎn)化為技術(shù)儲(chǔ)備。
據(jù)詹錕介紹,理想的研究課題來(lái)源,正是量產(chǎn)團(tuán)隊(duì)在算法落地過(guò)程中遇到的真實(shí)瓶頸。理想做研究就是為了更好地交付,因此研究成果能快速應(yīng)用在量產(chǎn)上,形成高效的研產(chǎn)閉環(huán)。
業(yè)內(nèi)最熟知的案例就是《DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》,這是一個(gè)由VLM(視覺(jué)語(yǔ)言模型)和端到端組成的雙系統(tǒng)架構(gòu),被CoRL 2024收錄,去年就已落地量產(chǎn),大幅提高了理想的輔助駕駛能力。
所以總結(jié)來(lái)看,盡管今年重注AI和機(jī)器人的車企,數(shù)不勝數(shù)。但像理想這樣,同時(shí)實(shí)現(xiàn)算法訓(xùn)練閉環(huán)、跑通商業(yè)化閉環(huán)、建立研產(chǎn)閉環(huán)能力的玩家,少之又少。
特斯拉是一個(gè),理想是另一個(gè)。
這份車企底色的AI公司名單,未來(lái)會(huì)很長(zhǎng)……但現(xiàn)在,還只是開(kāi)始,從學(xué)術(shù)、技術(shù)、產(chǎn)業(yè)再到大眾認(rèn)知層面不斷破圈的開(kāi)始。
不論如何,趨勢(shì)已經(jīng)開(kāi)始。士別理想三日,是時(shí)候刮目相看了。
